1.一种基于领域差异化的热点话题关键用户发现方法,其特征在于,包括以下步骤:S1、利用网络爬虫软件和/或各种社交软件提供的应用程序接口API接口获取数据源,获得消息、用户、领域的相关数据,并对获取的数据进行数据清洗;
S2、利用消息、用户、领域这三者之间的关联性关系构建消息-用户-领域三部图模型;
S3、根据消息-用户-领域三部图模型提取出用户所属领域信息,把该模型中的领域类别映射为具体的角色值,根据消息-用户-领域三部图模型的拓扑特征及节点属性,计算用户的角色值;
S4、根据用户的所属领域信息,引入时间衰弱函数控制不同时期热点话题的流行度值,并对热点话题的流行度进行阶段性的计算;
S5、根据热点话题的流行度,利用RoleRank算法进行迭代计算,得到用户在不同领域中对热点话题传播的角色重要值;根据用户的角色值和角色重要值,计算用户在整个热点话题中的整体影响力值,根据用户的整体影响力值找出热点话题传播过程中的关键用户;
S6、将发现的关键用户数据存储到微博平台数据中心,通过微博平台数据中心将关键用户数据发送到监测中心,在监测中心的监测屏上显示,以便监测部门对热点话题的传播过程进行实时监督与控制。
2.根据权利要求1所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,获取的数据源包括:热点话题信息数据和参与用户行为属性数据,其中,热点话题信息数据包括:热点话题下的参与用户ID、参与用户转发和评论内容及数目、每条热点话题所属的领域类别;参与用户行为属性数据包括:用户姓名、用户转发数、评论数、粉丝数以及关注数。
3.根据权利要求2所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,对获取的数据进行数据清洗包括:通过划分话题传播网络中的重叠参与用户、交叉领域来简化原生社交网络结构。
4.根据权利要求1所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,用户的角色值计算包括以下步骤:S31、将消息-用户-领域三部图模型中的领域类别映射为具体的角色值,得到领域类别的角色值,其定义和计算如下:第i个领域的角色值为 计算公式为:
其中,m表示领域类别的总数目, 表示第i个领域中所加入的用户数量,|R|是一个自定义值,表示角色数量,且|R|满足S32、根据领域类别的角色值,计算用户在每个领域的角色值,k用户在第i个领域的角色值计算公式为:其中,valk(i)表示k用户在第i个领域的角色值, 表示在第i个领域下所加入的用户数量, 表示第i个领域的角色值;
5.根据权利要求1所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,所述引入时间衰弱函数控制不同时期热点话题的流行度值,并对热点话题的流行度进行阶段性的计算,具体包括:引入时间衰弱函数控制不同时期热点话题的流行度值,计算方式包括:
其中,wjk(T)表示话题时间衰弱函数,δ为调节因子,T为k用户对消息j的行为事件,t0为话题开始的时间;
对热点话题流行度进行阶段性的计算,其计算方式包括:
其中, 为话题在T时刻在i领域的流行度,N_traWjk为k用户是否转发第j条消息,N_comWjk为k用户是否评论第j条消息,wjk(T)为话题时间衰弱函数,valk(i)为k用户在i领域下的角色值。
6.根据权利要求1所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,采用RoleRank算法进行迭代计算,识别出关键用户包括以下步骤:S51、根据消息、用户、领域的相关数据,计算出在每个领域下用户的传播意愿;
S52、根据热点话题的流行度与用户的传播意愿计算出用户在每个领域下对该话题的传播能力;
S53、根据用户对热点话题的传播能力,利用RoleRank算法进行迭代计算,得到每个领域下用户的角色重要值;
S54、在每个单一领域下,计算用户的角色值与用户的角色重要值的乘积,得到用户在每个领域下对热点话题的影响力;
S55、将步骤S54计算的所有乘积结果进行求和运算,得到该用户对热点话题的整体影响力值,根据所有参与用户对热点话题的整体影响力值,按照从大到小的顺序进行排序,取出序列中的前M个即可发现热点话题传播过程中的M个关键用户,实现领域差异化的溯源研究。
7.根据权利要求6所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,计算用户的传播意愿具体包括:根据消息、用户、领域的相关数据,利用以下公式计算用户的传播意愿:Uw(k)=c1F(k)+c2Iorig(k) (5)其中,Uw(k)表示k用户的传播意愿,F(k)表示k用户的粉丝数量,Iorig(k)表示k用户发布原始信息的数量,可通过实测数据获取,c1、c2是权重参数。
8.根据权利要求6所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,每个领域下用户对热点话题的传播能力,计算公式如下:Utc(k)=Uw(k)*HT (6)
其中,Utc(k)表示k用户对热点话题的传播能力,Uw(k)表示k用户传播意愿,HT表示话题在某领域下的流行度,即话题在领域环境下的传播力度。
9.根据权利要求6所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,利用RoleRank算法进行迭代计算,得到每个领域下用户的角色重要值,具体包括以下步骤:S531、对k用户在i领域下的角色重要值进行计算,其计算方式包括:
其中,R(ki)表示k用户在i领域下的角色重要值,R(ji)表示在i领域中k用户的好友用户j的角色重要值,Tk是指向k用户的其他用户集合,即k用户的好友集合,Utc(kj)是j用户的传播能力分配给k用户的比例因子,N是网络中用户总数,α是阻尼系数,α设定在(0,1)之间;
S532、把网络规模为N的所有用户传播力R的初值设为1/N,对式(7)不断地进行迭代计算,当本次迭代后的值与上一次迭代的值之差的绝对值小于事先设定的阈值ξ时,终止算法,最终获得该热点话题网络中k用户在i领域下的角色重要值R(ki)。
10.根据权利要求6所述的一种基于领域差异化的热点话题关键用户发现方法,其特征在于,用户对热点话题的整体影响力值,计算公式如下:其中,θ(vk)表示k用户对热点话题的整体影响力值,R(ki)表示k用户在i领域下的角色重要值,valk(i)表示k用户在i领域下的角色值。