1.基于组合预测法的主题词搜索爬虫调度系统,其特征在于:包括
第一获取模块,根据用户设置的关键词利用主题词搜索爬虫在数据源中获取数据;
数据预处理模块,用于将第一获取模块获取的数据进行预处理;
向量空间模型,用于将预处理后的文本数据变为由特征词权重构成的多维向量;
分簇模块,用于对文本数据进行分簇处理,得到的每一簇作为一个主题;
主题词提取模块,用于分别提取每个簇的主题词并存入数据库;
第二获取模块,提取数据库中的主题词,根据提取的主题词,利用主题词搜索爬虫从数据源获取数据;
解析模块,用于将第二获取模块获取的数据解析出每条文本数据相应的转发量、点赞量和评论量;
真实热度指标权重计算模块,通过解析模块解析的转发量、点赞量和评论量作为各条文本数据的真实热度指标并计算各指标权重;
更新模块,将第二获取模块获取的数据通过数据预处理模块、向量空间模型和分簇模块处理后,得到每个簇的特征词,将各簇包含的部分特征词作为主题词并更新在原来的数据库中;
真实热度值计算模块,利用解析模块解析出的每条文本数据相应的转发量、点赞量、评论量和真实热度指标权重计算模块得到的指标权重计算每条文本数据的真实热度,再根据分簇模块得到的主题,对各主题包含的文本数据真实热度求均值,求得的均值结果作为各主题的真实热度值;
预测热度值模块,用于预测下一期每个主题词的预测热度值;所述预测热度值模块是通过真实热度值计算模块获取的各主题真实热度值来得到各主题的预测热度值CPU分配模块,服务器根据预测热度值赋予各主题对应的主题词搜索爬虫相应的CPU占用率上限,并开启相应数量的进程数;所述CPU分配模块是根据组合预测热度值赋予各主题对应爬虫的权重值,服务器根据权重值调整主题对应爬虫的CPU占用率上限。
2.基于组合预测法的主题词搜索爬虫调度方法,其特征在于,包括如下步骤:步骤1、设置关键词,根据关键词利用主题词搜索爬虫在数据源获取数据;
步骤2、对数据进行预处理,将预处理后的文本数据变为由特征词的权重构成的多维向量,并划分该多维向量成簇,将每个簇定义为主题,每个主题内包含的部分特征词作为主题词存进数据库;
步骤3、提取数据库中的主题词,然后按照主题的个数编写相应数量的主题词搜索爬虫从数据源上获取主题数据,从爬取的数据中解析出转发量、点赞量和评论量作为真实热度指标并利用层次分析法确定各指标权重;
步骤4、通过步骤3获取的各条文本数据的转发量、点赞量和评论量及真实热度指标权重来计算每条文本数据的真实热度值,再根据步骤2得到的主题,对各主题包含的文本数据的真实热度求均值,求得的均值作为各主题的真实热度值;
步骤5、通过步骤4获得的各主题的真实热度值拟合出各主题真实热度值随期数的变化曲线,利用组合预测法获取下一期每个主题的预测热度值;
步骤6、将步骤3获取的数据经过步骤1~步骤2处理后,提取新的主题词并更新数据库;
步骤7、根据主题词的预测热度值,更新相应主题词搜索爬虫的权重值,服务器根据权重值调整各主题词对应主题词搜索爬虫的CPU占用率上限,并重复步骤3~步骤7。
3.根据权利要求2所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤2中,还包括如下:步骤21、数据清洗,利用正则表达式去除数据中中文以外的字符;
步骤22、中文分词,将获取的每一条数据正文切分成词语;
步骤23、去停用词,将步骤22中切分好的词语去除其中的停用词;
步骤24、使用向量空间模型,将文本数据变成由特征词权重构成的多维向量。
4.根据权利要求2所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤2中,还包括如下:采用聚类分析方法,将每个数据单独成簇,按照相似性度量标准将相似性最高的数据先进行合并,依照数据相似度从高到低的顺序依次合并成簇,簇间的相似度随着簇的合并而降低,直到达到相似度阈值停止,将每一簇称为一个主题,将每个主题内包含的特征词作为主题词存进数据库中,形成主题词数据库。
5.根据权利要求2所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤5中,组合预测算法包括指数平滑法、反向传播神经网络和熵值法,利用指数平滑法和反向传播神经网络分别计算出主题的预测热度值,再根据熵值法对指数平滑法和反向传播神经网络的主题预测热度值计算结果赋予权重,从而得到该主题的组合预测热度值。
6.根据权利要求5所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述指数平滑法采用二次指数平滑法得到预测热度值。
7.根据权利要求5所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述反向传播神经网络通过样本数据的训练,不断修复网络权值和阈值使误差函数沿负梯度方向下降,使误差函数不断减小到阈值或达到预设的迭代次数,得到输入层和输出层权重,最后将前期真实值输入训练好的反向传播神经网络得到预测热度值。
8.根据权利要求5所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:熵值法通过各项指标观测值所提供的熵值大小来确定指标权重,通过熵值得出两组预测热度值的离散程度,从而对两种预测热度值赋予相应权重并求和。
9.根据权利要求5所述的基于组合预测法的主题词搜索爬虫调度方法,其特征在于:所述步骤7中,采用多开进程的方法分配爬虫的CPU,根据预测热度值赋予更新后主题词数据库中各主题词对应爬虫的权重值,服务器根据权重值调整各主题词对应爬虫的CPU上限值与进程开启数。