欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019107011349
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于HC-TC-LDA的重大事件趋势预测方法,其特征在于该方法包括以下步骤:步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从上述目标网站采集数据,并将数据存入MySQL数据库;

步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间;然后划分时间片,根据上述事件打分公式为各时间片打分,确定每个时间片的趋势等级;

步骤(3).构建半结构化数据,运用HC-TC-LDA主题模型抽取特征词;

3.1人为设置层次聚类HC的文本相似度阈值,自动获取MySQL数据库数据的主题数目K;

3.2计算MySQL数据库中数据集中单词的贡献度TC值:设数据集中共有W个单词,w(1≤w≤W)表示其中的第w个单词;

先将每篇文档中相同单词的tf值进行两两相乘再相加的操作,得到根据tf值计算出的单词权值,最后将该值与idf相乘,这样得到的单词贡献度不仅保留了由tf值计算得到的权值,而且保留了idf值包含的完整语义信息,增加了特征词与噪声词的区分度;见如下公式:其中,tfwi表示单词w在第i篇文档中的文档频率tf值,idfw表示单词w的逆文档频率idf值;

3.3将LDA的主题数目设为步骤3.1获得到的K,并使用LDA计算主题-词汇概率分布φ,设每个主题有V个词,单词w在主题k(0≤k≤K)下的概率分布计算公式为其中, 表示除了当前词w以外主题k中属于词项v的个数,β是常数;

3.4将单词贡献度与LDA融合,提取主题词;

设主题k下单词w的概率分布可表示为φ(wk),单词w的贡献度为TC(w),融合后的概率值φ(wk-tc)的计算公式为φ(wk-tc)=φ(wk)+TC(w)  (4)

设每个主题下提取n个主题词,则根据融合后的主题-词汇概率分布,提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词;

步骤(4).基于上一步获得的各主题下的特征词,计算每个主题在各个时间片下的值,获取特征向量,并进行数据对齐操作,构建预测数据集;

4.1获取特征向量;

每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值;假设有K个主题,Xk(k∈1,2,···,K)表示第i个主题的量化值,a表示第i个主题下所有特征词在时间片T下出现的总次数,S表示时间片T下所有新闻报道的总词数,则在时间片T下,主题值Xk的计算公式为:时间片T的主题向量 为:

4.2对数据进行对齐操作,构建预测数据集;

设当前时间片为T时间片,则T-m时间片表示相对于T时间片的第T-m个时间片,将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级,作为样本集输入机器学习分类模型的训练数据集,其中主题向量为输入,重大事件趋势等级为输出;

此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值,得到最终用于输入模型的向量;

步骤(5).将步骤(4)获得的样本集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。