1.一种多特征融合的钓鱼网页检测方法,其特征在于,包括训练过程和检测过程,其中所述训练过程为:S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,从特征数据中随机抽取少量数据作为标记数据样本反例L1,其余部分作为无标记数据样本反例U1;
X1=[URL的路径级数,URL中dot数,URL的编码格式,URL字节数,IP地址,敏感词汇,URL中长词数,TLD的位置和数量];
X2=[可疑的Form表单,可疑的action域,页面的链接信息,页面框架或JS跳转];
X3=[域名日期,PageRank值,BackLink值,页面相似检测];
所述页面相似检测的具体检测方法如下:
(1)将待检测页面的URL记为URL_old,获取待检测页面的html,并过滤其中的html标签和JavaScript脚本语言;
(2)将过滤后的html内容,通过TF-IDF算法计算其中关键词;
(3)结合关键词和域名在搜索引擎中检索,并获取检索信息S1,如果搜索引擎有建议搜索内容,则根据建议搜索内容二次搜索,获取检索信息S2,根据S1或S2获取的URL记为URL_new,进入步骤(4);如果检索结果为NULL,则认为不是钓鱼页面记为1;
(4)对URL_old和URL_new进行相似度检测,钓鱼页面则记为0,否则记为1;具体步骤如下:
1)计算URL_old和URL_new域名中的dot的级数是否相同,相同则fea_dot=1,否则fea_dot=0,fea_dot表示dot特征;
2)取URL_old和URL_new子域名的编辑距离特征记为fea_subdom(;取URL_old和URL_new主域名的编辑距离特征记为fea_pridom;并对fea_subdom和fea_pridom进行归一化处理,如果fea_subdom和fea_pridom的值为0,则将转化为1存储,否则利用 进行归一化处理,x表示fea_subdom或fea_pridom的值,x'表示转换后对应的结果;
3)比较URL_old和URL_new是否具有相同的顶级域名TLD,以及TLD在每个URL中出现的次数是否相同,如果相同则fea_TLD=1,否则fea_TLD=0,fea_TLD表示TLD特征;
4)通过fea_dot、fea_subdom、fea_pridom和fea_TLD值进行线性回归预测,钓鱼页面则记为0,否则记为1;
S2:从非钓鱼网页URL数据集中收集特征数据,通过Alexa获取排名靠前的合法网页的特征数据X,形成标记数据样本正例L2,其余部分作为无标记数据样本正例U2,根据S1和S2得到标记训练数据集L,L=L1+L2,和无标记训练数据集U,U=U1+U2;
S3:从L中通过Bootstrap Sampling方法进行重复采样获得三个训练集合B1、B2和B3;
S4:从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3;
S5:针对每一个初始化分类器进行以下操作:在h1、h2和h3中任选择一个初始化分类器作为主分类器,分别将另外2个分类器作为辅助分类器,分别在无标记训练数据集U进行预测得到标记结果U2和U3;
S6:将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集,用来重新训练主分类器;
S7:重复S5操作,通过不断迭代更新,直到三个分类器对无标记训练数据集都不再变化为止;
检测过程为:拦截用户请求的URL信息,进行Form表单检测,返回检测结果,如果存在危险,则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3进行判断。
2.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述PageRank值计算过程中通过Min-Max标准化进行归一化处理 其中PR表示PageRank的值,PR'表示PR归一化的值;BackLink通过 进行归一化处理,BL表示BackLink的值,BL'表示BL归一化的值。