1.一种垃圾网页识别方法,其特征在于:包括以下步骤:
步骤(1)、从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,训练集中包括已识别网页中的链接特征、链接组合特征和网页标签特征,其中网页标签特征包含垃圾网页特征和非垃圾网页特征;
步骤(2)、统计训练集中每个训练网页对应的有向三角形的数目,将每个训练网页对应的有向三角形的数目作为该训练网页的有向三角形特征;
步骤(3)、将步骤(2)中得到的训练网页的有向三角形特征与训练集中对应训练网页的链接特征、链接组合特征、对应网页标签特征进行组合,得到训练网页的包含链接特征和网页标签特征的第一组合特征集,包含链接特征、有向三角形特征和网页标签特征的第二组合特征集,包含链接组合特征和网页标签特征的第三组合特征集,包含链接组合特征、有向三角形特征和网页标签特征的第四组合特征集;使用随机森林模型对上述得到的四组组合特征集分别进行训练,分别得到训练网页的第一训练模型、第二训练模型、第三训练模型和第四训练模型;
步骤(4)、提取未识别网页的链接特征和链接组合特征;
步骤(5)、统计未识别网页对应的有向三角形的数目,将未识别网页对应的有向三角形的数目作为该未识别网页的有向三角形特征;
步骤(6)、将步骤(5)中得到的未识别网页的有向三角形特征与未识别网页的链接特征、链接组合特征进行组合,得到未识别网页的包含链接特征的第一测试组合特征集,包含链接特征和有向三角形特征的第二测试组合特征集,包含链接组合特征的第三测试组合特征集,包含链接组合特征和有向三角形特征的第四测试组合特征集;将得到的四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果,如果四个网页标签特征测试结果中有一半以上的结果为垃圾网页特征,则将该未识别网页的网页标签特征赋值为垃圾网页特征。