1.一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:该方法包括以下步骤:
S1:获取网址原始数据集,对原始数据集进行预处理,然后利用处理过后的原始数据集提取网址的URL关键词特征、网址主机信息特征、网址页面内容特征和网址JavaScript特征;
S2:根据网址数据集的大小以及提取特征的数量设置飞蛾种群的大小以及飞蛾个体维度的数量,并初始化飞蛾种群M;
S3:对飞蛾个体进行离散化处理,并计算每个飞蛾个体的适应度值存储到适应度矩阵OM中,对适应度矩阵OM进行排序,根据火焰数量自适应调整公式计算得到火焰数量flamenum,存储对应的数据到火焰矩阵F中,计算飞蛾个体到对应火焰的距离Dij,然后更新飞蛾个体的值;
k
S4:通过更新后的飞蛾个体计算控制因子λi、自适应因子CA和自适应因子的下限CA_L,根据计算的结果选择不同的变异策略,包括三种变异策略分别是最优点变异策略、随机变异策略和高斯变异策略;最优点变异策略用于增强最优解领域搜索的能力;随机变异策略用于增强算法的全局搜索能力;高斯变异策略用于逐渐将算法从全局搜索变为局部搜索;
S5:当选择最优点变异策略和随机变异策略时,通过引入缩放因子平衡算法种群多样性和局部收敛的能力;根据选择的变异策略计算变异后个体适应度值的大小,如果优于原先个体的适应度值,则用变异个体取代原先飞蛾个体;
S6:判断是否达到设置的终止条件;
S7:如否,则返回执行S3,继续寻找最优飞蛾个体;如是,则输出当前最优飞蛾个体所选择的特征,并训练分类算法完成欺诈网址识别方法的构建。
2.根据权利要求1所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:所述S1中,对网址原始数据进行预处理以及提取网址特征数据过程包括:S11:对收集的网址原始数据进行清洗,删除无效数据和异常数据,得到处理过后的网址数据集U;
S12:通过对处理后网址数据集U的URL关键词和主机信息进行分析,提取网址的URL关键词特征和网址的主机信息特征;
S13:通过对网址数据集U的页面内容和JavaScript代码进行分析,提取网址的页面特征和JavaScript特征;
S14:结合S12和S13提取的特征,形成网址特征向量U(i)=(ui1,ui2,...,uij,...,uid),其中uij代表提取的某一特征。
3.根据权利要求2所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:所述S2中,改进飞蛾火焰优化算法个体更新过程包括:S21:根据网址数据集的大小以及提取特征的数量设置飞蛾种群的大小以及飞蛾个体维度的数量,初始化飞蛾种群矩阵M=[Mij]n×d,并对其进行离散化处理,通过适应度函数计算每个飞蛾个体的适应度值,存储到适应度矩阵OM=[OMi]n,并对其进行排序;
S22:如果是初次迭代,将排序过后的飞蛾适应度矩阵OM存储到火焰适应度矩阵OF=[OFi]n,并将对应的飞蛾个体存储到火焰矩阵F=[Fij]n×d;
S23:如果不是初次迭代,通过火焰数量自适应调整公式计算当前迭代过程火焰数量flamenum,并利用飞蛾适应度矩阵OM更新火焰适应度矩阵OF,同时利用对应的飞蛾个体更新火焰矩阵F;
S24:根据火焰矩阵F,使飞蛾个体采用螺旋形状运动的方式更新其值。
4.根据权利要求3所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:所述S21中,飞蛾种群离散化公式表示为:其中,Mi,k代表第k轮迭代的第i只飞蛾个体,S(Mi,k)代表经过转换后的值,Th代表设置的阈值;
适应度函数公式表示为:
公式中γacc是识别结果的精确度,|x|是飞蛾个体所选择的特征数目,d是总的特征数目;
火焰数量自适应调整公式表示为:公式中的k是当前迭代的次数,n是飞蛾种群的数量,K是最大的迭代次数。
5.根据权利要求4所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:所述S24中,采用的更新公式表示为:bt
Mi=Dij×e ×cos(2πt)+Fj公式中的Mi代表第i只飞蛾,Fj代表第j束火焰,Dij=|Fj‑Mi|代表第i只飞蛾与第j束火焰的距离,b代表的是定义对数螺旋线形状的常数,t是一个[‑1,1]内的随机数。
6.根据权利要求5所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法,其特征在于:所述变异策略中,变异公式表示为:公式中的Xi,k+1代表第k轮迭代的飞蛾个体变异后的变异个体,Mbest,k代表的是该轮的最优秀个体,Mi,k、Mr1,k、Mr2,k、Mr3,k、Mr4,k代表的是该轮不相同的飞蛾个体;
w代表的是缩放因子,对于w的公式表示为:公式中的wmax代表w的最大值,wmin代表w的最小值,K代表最大的迭代次数;
k
λi代表的是第k轮迭代i个体对应的控制因子,公式表示为:公式中f表示适应度值;
CA代表的是自适应因子,CA_L为自适应因子下限,公式表示为:公式中freq为正弦函数的波动频率,取值为0.05;
2 2 2
G(μ,σ)表示的是高斯变异,其中μ为均值,σ为方差,μ=Mbest,k,σ=|Mbest,k‑Mi,k|;
通过获得的最优特征子集训练随机森林算法,并将需要判断的网址输入到训练好的欺诈网址识别模型中,输出判断的结果。