知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种多特征融合的钓鱼网页检测方法

面议

专利号： 2016110286292

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种多特征融合的钓鱼网页检测方法，其特征在于，包括训练过程和检测过程，其中所述训练过程为：S1：根据钓鱼网页URL数据集收集特征数据，包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，从特征数据中随机抽取少量数据作为标记数据样本反例L1，其余部分作为无标记数据样本反例U1；

X1＝[URL的路径级数，URL中dot数，URL的编码格式，URL字节数，IP地址，敏感词汇，URL中长词数，TLD的位置和数量]；

X2＝[可疑的Form表单，可疑的action域，页面的链接信息，页面框架或JS跳转]；

X3＝[域名日期，PageRank值，BackLink值，页面相似检测]；

所述页面相似检测的具体检测方法如下：

(1)将待检测页面的URL记为URL_old，获取待检测页面的html，并过滤其中的html标签和JavaScript脚本语言；

(2)将过滤后的html内容，通过TF-IDF算法计算其中关键词；

(3)结合关键词和域名在搜索引擎中检索，并获取检索信息S1，如果搜索引擎有建议搜索内容，则根据建议搜索内容二次搜索，获取检索信息S2，根据S1或S2获取的URL记为URL_new，进入步骤(4)；如果检索结果为NULL，则认为不是钓鱼页面记为1；

(4)对URL_old和URL_new进行相似度检测，钓鱼页面则记为0，否则记为1；具体步骤如下：

1)计算URL_old和URL_new域名中的dot的级数是否相同，相同则fea_dot＝1，否则fea_dot＝0，fea_dot表示dot特征；

2)取URL_old和URL_new子域名的编辑距离特征记为fea_subdom(；取URL_old和URL_new主域名的编辑距离特征记为fea_pridom；并对fea_subdom和fea_pridom进行归一化处理，如果fea_subdom和fea_pridom的值为0，则将转化为1存储，否则利用进行归一化处理，x表示fea_subdom或fea_pridom的值，x'表示转换后对应的结果；

3)比较URL_old和URL_new是否具有相同的顶级域名TLD，以及TLD在每个URL中出现的次数是否相同，如果相同则fea_TLD＝1，否则fea_TLD＝0，fea_TLD表示TLD特征；

4)通过fea_dot、fea_subdom、fea_pridom和fea_TLD值进行线性回归预测，钓鱼页面则记为0，否则记为1；

S2：从非钓鱼网页URL数据集中收集特征数据，通过Alexa获取排名靠前的合法网页的特征数据X，形成标记数据样本正例L2，其余部分作为无标记数据样本正例U2，根据S1和S2得到标记训练数据集L，L＝L1+L2，和无标记训练数据集U，U＝U1+U2；

S3：从L中通过Bootstrap Sampling方法进行重复采样获得三个训练集合B1、B2和B3；

S4：从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3；

S5：针对每一个初始化分类器进行以下操作：在h1、h2和h3中任选择一个初始化分类器作为主分类器，分别将另外2个分类器作为辅助分类器，分别在无标记训练数据集U进行预测得到标记结果U2和U3；

S6：将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集，用来重新训练主分类器；

S7：重复S5操作，通过不断迭代更新，直到三个分类器对无标记训练数据集都不再变化为止；

检测过程为：拦截用户请求的URL信息，进行Form表单检测，返回检测结果，如果存在危险，则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，利用h1、h2和h3进行判断。

2.根据权利要求1所述一种多特征融合的钓鱼网页检测方法，其特征在于：所述PageRank值计算过程中通过Min-Max标准化进行归一化处理其中PR表示PageRank的值，PR'表示PR归一化的值；BackLink通过进行归一化处理，BL表示BackLink的值，BL'表示BL归一化的值。

推荐专利

一种基于人脸面部特征识别技术的在线通行系统

发明专利

面议

一种融合VoIP/IM与移动通信技术的通信代理装置及其使用方法

发明专利

￥32200

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们