1.一种网络爱国舆情事件跟踪、预测和疏导方法,其特征在于,所述方法包括以下步骤:步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的基BERT模型,将文本进行分类并判断是否和爱国主义相关,计算特定爱国主义事件相关话题的流行度;
步骤3,识别突发热点事件,使用基于局部离群因子的异常检测算法LOF方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,此外,本系统将通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;
步骤4,网络爱国舆情事件跟踪,当检测到与爱国主义相关的突发热点事件,系统会一直持续收集网络上的各种网络行为,跟踪并记录从话题的爆发然后达到顶峰最后衰退的整个过程,统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度;
步骤5,网络爱国舆情事件流行度的预测,使用的是结合长短期记忆网络LSTM和卷积神经网络CNN的深度学习方法,过程如下:
5.1可以影响舆情事件流行度发展的属性被分为两类,一种是和时间相关的动态属性,使用对时间敏感的长短期记忆网络,另一种是和时间无关的静态属性,使用卷积神经网络处理;
5.2动态属性中最重要的当然是流行度随时间积累的属性Vp(t),除此之外还包括用户属性和网络属性,其中t时刻用户属性向量Vu(t)如下式所示Vu(t)=[nv,nf,na]T
其中nv是参与的意见领袖的数量,nf表示所有意见领袖的关注者的数量,na表示参与讨论的用户平时活跃程度,网络属性指的是参与讨论话题的用户在网络上的拓扑结构信息,使用Node2vec算法将网络拓扑结构信息用矩阵Vn(t)来表示,将从0到对应时刻的用户属性Vu(t)和网络属性Vn(t)结合并输入LSTM中,经过学习得到该时刻的特性向量Vun(t),然后将Vun(t)和Vp(t)结合作为动态属性向量VD(t),如下式所示T
VD(t)=[Vun(t),Vp(t)]
5.3所谓的静态属性指的是这一话题本身的属性,在之前的步骤2中相同的话题被归纳总结,内容包括事件类型、涉及的群体和具体内容,将这些信息输入到经过预训练的CNN中,提取出固定长度的静态属性向量VS(t);
5.4将动态属性向量VD(t)和静态属性向量VS(t)连接起来,然后将向量归一化,接着输入全连接神经网络,然后使用随机梯度和反向传播来训练深度神经网络,最终输出未来此话题的流行度趋势预测;
步骤6,舆情事件的疏导,步骤如下:
6.1将系统中存档的和正在发生的舆情相关或者相似的历史事件数据提取出来,其中需要特别注意的是官方或者事件主体的应对行为,将事件的数据和相应的应对行为按照步骤5中的方法训练深度神经网络;
6.2通过将正在发生的舆情事件输入训练好的神经网络,系统会推荐得体的几个应对方案供使用者参考,并会给出使用相应方案后事件舆情流行度的发展趋势。