欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018114880414
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于变异思想改进粒子群算法的主题爬虫系统,其特征在于:包括种子集选取模块、页面初始权值计算模块和基于变异思想改进粒子群算法模块,所述种子集选取模块用于根据主题相关页面的点击率获取3种不同类型的种子页面;所述页面初始权值计算模块用于构建主题向量和权值计算;所述基于变异思想改进粒子群算法模块用于计算并输出局部极值。

2.根据权利要求1所述一种基于变异思想改进粒子群算法的主题爬虫系统,其特征在于:所述3种不同类型的种子页面包括关键字对应的官网或权威机构,关键字的维基百科,关键字在Google搜索的结果中点击率最高的网页。

3.根据权利要求2所述一种基于变异思想改进粒子群算法的主题爬虫系统,其特征在于:所述3种不同类型的种子页面每种页面选取一个。

4.根据权利要求2或3所述一种基于变异思想改进粒子群算法的主题爬虫系统,其特征在于:所述种子集选取模块还包括人工去重,即对于类型接近,权重因子相似的网页只选其中具有代表性的一个页面。

5.根据权利要求1所述一种基于变异思想改进粒子群算法的主题爬虫系统,其特征在于:所述页面初始权值计算模块包括网页文本预处理模块、关键词选择模块及权值计算模块;

网页文本预处理模块:包括去停用词模块和词形归并模块,去停用词模块去掉了对网页的主题没有贡献的最常见单词,词形归并模块中整合源于同一个词根的词;

关键词选择模块:采用TFIDF算法得到各个词项的权重并按照大小排序,选择前30%的名词和动词作为特征词项并以此为基础作为网页的特征向量;

权值计算模块:计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重。

6.一种基于变异思想改进粒子群算法的主题爬虫方法,其特征在于:包括根据主题相关页面的点击率获取3种不同类型的种子页面的步骤;构建主题向量和权值计算步骤;基于变异思想改进粒子群算法步骤。

7.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法,其特征在于:所述3种不同类型的种子页面包括关键字对应的官网或权威机构,关键字的维基百科,关键字在Google搜索的结果中点击率最高的网页,每种页面选取一个。

8.根据权利要求7所述一种基于变异思想改进粒子群算法的主题爬虫方法,其特征在于:还包括人工去重步骤,人工去重原则为对于类型接近,权重因子相似的网页只选其中具有代表性的一个页面。

9.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法,其特征在于:所述构建主题向量和权值计算步骤具体步骤如下:网页文本预处理:去掉对网页的主题没有贡献的最常见单词,整合源于同一个词根的词;

关键词选择:采用TFIDF算法得到各个词项的权重并按照大小排序,选择前30%的名词和动词作为特征词项并以此为基础作为网页的特征向量;

权值计算:计算给定主题的网页URL、网页全文、网页锚文本和网页周边文本的权重。

10.根据权利要求6所述一种基于变异思想改进粒子群算法的主题爬虫方法,其特征在于:所述基于变异思想改进粒子群算法包括以下步骤:(1)初始化种群位置和速度:其中xi是粒子的位置,vi是粒子的速度,vi1,vi2,...,vid为每一 个维 度的 速 度 ,初 始值 为 xi d= v id ,初始 位置 计 算公 式如 下 :初始速度计算公式: 其中d表示

粒子群总数,xi1,xi2,...,xid表示各个粒子的位置;

(2)计算权值:计算公式为 vi2是网页全文在网页i中的加

权值,tfi和idfi是网页全文在网页i中的术语频率和逆文档频率,fi指给定关键词出现的次数,fmax是所有词出现的次数总和,N为语料库中的文件总数,Ni是包含词语的文件数目;

(3)更新速度和位置:更新的位置计算公式如下:x1(t+1)=x1(t)+vi(t+1),更新的速度计算公式如下:v1(t+1)=v1(t)+c1r1(t)(pbesti(t)-xi(t))+c2r2(t)(gbesti(t)-xi(t)),C1和C2表示两个独立的加速度系数,r1(t)和r2(t)为两个独立的随机数,其取值范围均为(0,

1),其中,v1(t+1)表示粒子更新后的速度值,v1(t)表示粒子现在的速度值,pbesti(t)表示对于i粒子方向的局部极值,xi(t)表示粒子当前的位置,gbesti(t)表示t时刻的全局极值;

(4)变异操作:首先采用PSO算法搜索网页,当PSO算法陷入局部极值时,引入GA算法只对陷入局部极值的粒子进行变异操作,再继续进行全局搜索,直到满足终止条件;

(5)更新局部极值:根据步骤(2)计算出各权重因子的权值,将最大的速度值vik依据比例变成1,其他权值依据比例1/vik增加;

(6)迭代计算,输出局部极值:需要计算粒子和当前网页的相似性,且设置了相似度的阈值,取值范围为[0,1],如果网页和全局极值的相似度低于阈值,则下载。