1.一种基于情感分析的社交网络影响力传播模型构建方法,其特征在于,包括以下步骤:
通过加入情感系数到独立级联模型的激活概率计算公式中来对独立级联模型进行改进,具体包括:分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,之后将情感系数加入到激活概率的计算公式中,再将改进后的激活概率计算公式加入到影响力传播模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析;将新的激活概率公式应用到影响力传播模型中,来判断用户是否转发微博,若转发则用户的状态为激活状态,反之则未激活,将成功激活的节点加入到集合S中,重复以上步骤直到没有节点可以被激活,所得到的集合S则为影响力传播的结果;
所述的基于情感分析的社交网络影响力传播模型,包括:计算情感系数sn,即用户情感在总体情感中所占的比重,计算情感系数的方法如下:其中,Si表示用户i的情感倾向类型,转发后的情感与原创微博情感不同需要重新计算用户当前情感在传播过程中所占的比重。
2.根据权利要求1所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述分析每条微博的情感倾向,然后利用情感倾向来计算情感系数,具体包括:
1)、抓取微博数据,对每条微博进行情感分析,分析得到每条微博的情感倾向,情感倾向包括七类:1.客观,2.高兴,3.愤怒,4.悲伤,5.恐惧,6.反感,7.惊讶;
2)、利用步骤1)的情感分析结果计算情感系数sn。
3.根据权利要求2所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述步骤1)对每条微博进行情感分析,采用的是细粒度情感分析,如果在一条微博中没有情感词的出现则此条微博的情感倾向为‘客观’,如果微博中包含有情感词则此条微博的情感强度的计算公式如下:
其中scorej表示j类情感词的情感强度;m表示一条微博中属于j’类情感的情感词数量,scorej的值是通过互信息来进行计算的,使用语料库来统计词语出现的概率,计算公式如下:
其中,df(word)表示在语料中含有词语word的文档数目,N代表为语料数据集中文档总的数目,PMI(word1,word2)值越大表示两个词语的相关程度就越强,所以,一个未知情感倾向词语word的情感倾向强度值计算为:scorej=∑pword∈pwordsPMI(word,pword)‑∑nword∈NwordsPMI(word,nword)其中Pwords是褒义情感种子词语的集合,Nwords是贬义情感种子的词语集合,通过以上计算公式会得到一个情感强度的矩阵{p1,p2,p3,p4,p5,p6},此条微博的情感倾向类别为Sj’=argmax(j’)。
4.根据权利要求3所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述将情感系数加入到激活概率的计算公式中具体包括:
3)、将步骤2)计算得到的情感系数sn加入到影响力传播模型激活概率p的计算公式如下:
其中:Rij表示用户j转发用户i微博的数量,Ri表示用户i发表微博数量,Rj表示用户j所有转发数量,sn为情感系数。
5.根据权利要求4所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,所述将改进后的激活概率计算公式加入到影响力传播模型中,最后使用影响力传播模型来对社交网络中的影响力传播情况进行分析具体包括:
4)、将步骤3)加入情感系数的激活概率公式p应用到影响力传播模型中,当激活概率p大于等于一个随机值r∈(0,1)时,节点被激活并加入到集合S中;
5)、重复步骤4)直到没有节点可以被激活,集合S则为影响力最终的传播结果。
6.根据权利要求5所述的基于情感分析的社交网络影响力传播模型构建方法,其特征在于,在所述步骤4)中,判断用户是否有转发行为,用户是否转发、评论,代表用户是否有转发和评论微博或者帖子的行为:
其中p是激活概率,r∈(0,1)是一个随机值,如果用户有转发行为则视为被激活,并将其加入到种子集S中。