欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020116072058
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于历史新闻报道的事件趋势预测方法,其特征在于,所述方法包括:步骤1:首先确定待预测事件领域,在指定领域中,下载现有的公开新闻文本数据集和标签信息,若无公开数据集,则使用网络爬虫下载特定新闻网站的领域新闻;

步骤2:,当网络爬虫下载的数据集无标注信息时,需要通过人工标注加新闻分类/聚类的方法完成主要事件的标注;

步骤3:同类事件计算,在已完成主要事件标注的新闻中,使用设定的相似度阈值,在排除关键性3W信息后进行相似度计算,找到相似性事件,通过人工验证后将其标注为同类事件;

步骤4:子事件聚类,在每个同类事件内部,以关键性3W信息为主计算每两条新闻之间的相似度,将描述同一具体事件的新闻聚类为一个子事件;

步骤5:对步骤4得到的子事件之间,采用半人工标注的方式,根据事件内容的关联性和时间先后顺序,建立子事件之间的上下文联系,用有向边表示,从归因事件指向后续事件,获得每个子事件后续事件分布信息;

步骤6:对于待预测的新事件,获取核心的描述新闻,或者从公开信息源采集与所述待预测新事件相关的新闻报道,并对没有标注信息的新闻报道进行标注;

步骤7:确定所述待预测新事件的当前子事件,对于所述待预测新事件进行步骤4操作,建立子事件,并找到当前子事件;

步骤8:计算相似事件,在排除关键性3W信息后,计算所述待预测新事件与所有同类事件的相似度,取相似度超过设定的第二阈值的同类事件作为备选的相似事件,组成备选相似事件库;

步骤9:计算相似子事件,计算所述当前子事件和相似事件中的子事件的相似度,对于低于第三阈值的予以舍弃;

步骤10:综合步骤8得到的所述待预测新事件与相似事件的相似度、步骤9得到的当前子事件与相似事件中的子事件相似度,以及相似事件中的所述子事件后续事件分布,计算当前子事件的后续事件分值;

步骤11:对于可能的后续事件按照概率从大到小排序,并列举前5个可能后续事件作为对于当前子事件的后续发展趋势预测。

2.如权利要求1所述的事件趋势预测方法,其特征在于,进行人工标注的方法包括:步骤21:从下载新闻中随机抽取较小数量新闻报道,由专门的标注人员对其进行阅读,标明其涉及的主要事件;

步骤22:如该条新闻的事件在前序新闻中已提到,将其并入同一事件中,否则新建一个独立的种子事件;

步骤23:使用已标注事件中的新闻作为基准,将未标注新闻与其计算相似度,对于相似度达到第一阈值的新闻归入同一事件,有多个事件都足够相似时,取相似度最高的事件;

步骤24:对于尚未划分到其他事件中的新闻,采用聚类方法对其进行聚类;

步骤25:在聚类结果中人工手动选择较大的类别进行人工二次标注,选择适当的事件加入现有集合;

步骤26:当剩余新闻数量少于设定比例或新闻条数少于设定条数,停止聚类和人工二次标注,否则重复步骤24至步骤26,并调整聚类参数。

3.如权利要求2所述的事件趋势预测方法,其特征在于,步骤6具体还包括:步骤61:从事件描述中提取关键的描述词;

步骤62:使用关键词查询主流搜索引擎,获得相关报道的URL;

步骤63:使用爬虫获取报道内容;

步骤64:重复步骤2的步骤对数据进行清洗,不过仅处理和当前事件相关的内容,忽略其他搜索引擎返回的噪声数据。