1.一种基于有向图改进版PageRank以及综合评定微博影响力的用户推荐方法,包括如下步骤:(1)Python爬虫爬取新浪微博数据集;(2)通过数据集在关注关系与交互关系的基础上建立有向图模型;(3)加入综合指标评定矩阵,得到加权概率转移矩阵;(4)马尔科夫迭代收敛得到最终PR值并进行Top-N推荐。
2.如权利要求1所述的基于有向图改进版PageRank以及综合评定微博影响力的用户推荐方法,其特征在于:所述步骤(1)具体如下:Python爬虫爬取新浪微博上2000个左右用户及其衍生的几十万粉丝以及关注用户数据集,爬取四张数据表:①User_info表、②Follows表、③Followers、④Retweets。
3.如权利要求2所述的基于有向图改进版PageRank以及综合评定微博影响力的用户推荐方法,其特征在于:所述步骤(2)具体如下:设用户i关注人数为Fi,设转发微博条数为Ti,则通过皮尔逊相关系数来计算关注与转发之间的相关性RFT:设关注权值为WF,则转发权值WT=WF×RFT;
研究用户i影响力时,设用户m全部转发的微博数为Tm,转发用户i的微博数为Tmi,则依次根据皮尔逊算出所有其他用户与用户i的微博转发相关性Rmit;
则用户m转发用户i的微博时的权值为Wmit=Rmit×WT,即用户i对用户m的影响力即两者之和Influenceim=Wmit+WF,而用户i的总影响力就为与其有关的用户m1、用户m2…用户mn之和,即其他用户依次类推;
将Influenceim类比到不同的两个用户之间,列出转移矩阵,每行表示一个用户,一行里的每个数值表示这个人对所有人的影响权值;每列也表示一个用户,一列里每个数值表示这个用户被别人影响的权值,得到初步的转移矩阵mij。
4.如权利要求3所述的基于有向图改进版PageRank以及综合评定微博影响力的用户推荐方法,其特征在于:步骤(3)具体如下:加入综合指标评定矩阵,得到加权概率转移矩阵;
用户i的综合评定影响力指标如下:
W(i)=Quality(i)×α+Outdegree(i)×β+Confidence(i)×γ+Active(i)×δ,α+β+γ+δ=1,α、β、γ、δ为权值;
Quality(i)表示用户博文质量,公式如下:Quality(i)=Retweets(i)×α′+Comments(i)×β′+Likes(i)×γ′α′+β′+γ′=1,α′、β′、γ′为权值;
Outdegree(i)表示出度,即粉丝数;
Confidence(i)表示置信度;
Active(i)表示活跃度,即
ni表示用户i发表的博文数,N表示全部博文数。
Mij=Wi*mij
其中mij是初始加权概率转移矩阵,得到最终的加权概率转移矩阵Mij。
5.如权利要求4所述的基于有向图改进版PageRank以及综合评定微博影响力的用户推荐方法,其特征在于:步骤(4)具体如下:取一个合适的rank向量v,是一个n*1的矩阵,n即为节点数,每一行数值为 即v′=v×mij;
通过PR公式进行马尔科夫迭代,
其中,用户uj推荐给用户u的pagerank值;
得到最终用户的PR值,并取Top-10用户作为本发明挖掘到的最具影响力用户。