知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种垃圾网页识别方法

面议

专利号： 201710558799X

申请人：宁波大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-08-24

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种垃圾网页识别方法，其特征在于：包括以下步骤：

步骤(1)、从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集，训练集中包括已识别网页中的链接特征、链接组合特征和网页标签特征，其中网页标签特征包含垃圾网页特征和非垃圾网页特征；

步骤(2)、统计训练集中每个训练网页对应的有向三角形的数目，将每个训练网页对应的有向三角形的数目作为该训练网页的有向三角形特征；

步骤(3)、将步骤(2)中得到的训练网页的有向三角形特征与训练集中对应训练网页的链接特征、链接组合特征、对应网页标签特征进行组合，得到训练网页的包含链接特征和网页标签特征的第一组合特征集，包含链接特征、有向三角形特征和网页标签特征的第二组合特征集，包含链接组合特征和网页标签特征的第三组合特征集，包含链接组合特征、有向三角形特征和网页标签特征的第四组合特征集；使用随机森林模型对上述得到的四组组合特征集分别进行训练，分别得到训练网页的第一训练模型、第二训练模型、第三训练模型和第四训练模型；

步骤(4)、提取未识别网页的链接特征和链接组合特征；

步骤(5)、统计未识别网页对应的有向三角形的数目，将未识别网页对应的有向三角形的数目作为该未识别网页的有向三角形特征；

步骤(6)、将步骤(5)中得到的未识别网页的有向三角形特征与未识别网页的链接特征、链接组合特征进行组合，得到未识别网页的包含链接特征的第一测试组合特征集，包含链接特征和有向三角形特征的第二测试组合特征集，包含链接组合特征的第三测试组合特征集，包含链接组合特征和有向三角形特征的第四测试组合特征集；将得到的四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试，分别得到4个网页标签特征测试结果，如果四个网页标签特征测试结果中有一半以上的结果为垃圾网页特征，则将该未识别网页的网页标签特征赋值为垃圾网页特征。