1.一种全网爱国舆情事件识别及流行度跟踪方法,其特征在于,所述方法包括以下步骤:步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站,最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的基BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为 其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;
步骤4,突发热点事件识别,过程如下:
4.1基于时间的突发事件识别:在一般情况下,特定时间内网络行为数量应是随着在线用户数量而平缓变化的,如果突然出现活动增加或者模式变化,则可判定为突发的热点事件,使用基于局部离群因子的异常检测算法(Local outlier factor,LOF)方法来检测相关微博数在时间序列上的突然增长,并向用户发出通知,其中LOF是一种计算数据集中的每个点的个离群因子,通过判断LOF是否接近于1来判定是否为离群因子,公式如下:其中LOFk(p)表示p点的局部离群因子,k是可设计的参数,Nk(p)表示点p的第k距离邻域,|Nk(p)|表示p的第k邻域点的个数,lrdk(o)表示o点的局部可达密度,lrdk(p)表示p点的局部可达密度;
4.2基于地域的突发热点识别:同一时间点在不同地域话题的演变规律可能会有较大的不同,有些事件是区域性而不是全国性的,因此通过比较一个地区与其相邻地区的话题流行度区别来识别突发热点事件的起源及影响范围;
步骤5,当检测到与爱国主义相关的突发热点事件,会一直持续收集网络上的各种网络行为,记录从话题的爆发然后达到顶峰最后衰退的整个过程,并统计过程中的各种数据,包括参与互动的用户数量,用户的年龄段、用户的地域分布、用户对国家的支持度,最终形成最后的事件报告。