1.一种基于用户行为的话题流行度预测系统,其特征在于,包括:数据源获取模块、转发驱动力量化模块及话题流行度预测模型构建模块,数据源获取模块,用于从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化模块,从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元线性回归模型量化用户转发驱动力;
话题流行度预测模型:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到话题流行度预测模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数;
所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:P(ui)=θ0+θ1Pindividual(ui)+θ2Psocial(ui) 式(7)其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而 代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数 刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力;
所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F‑SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;
S312:根据以上的传播规则,动力学方程表示如下:
方程中, 表示当前时刻的平均转发概率,通过多元线性回归量化求得;μ表示比例系数;
所述话题流行度预测模型中,结合F‑SIR模型,利用最小二乘模型拟合真实值,求得话题传播动力学方程,实现信息流行度的预测,具体步骤如下:通过时间切片技术,设定切片窗口大小,统计t+1时间窗口下对应的易感者、染病者、恢复者三个状态的真实值,记为S(t+1)、I(t+1)、R(t+1),S(t)、I(t)、R(t)分别表示当前t时刻的易感者、染病者、恢复者的真实值,预测值用S'(t+1)、I'(t+1)、R'(t+1),则预测值和真实值的误差函数可以表示如下:其中,k表示训练集窗口长度,而
R'(t+1)=R(t)+μI(t) 式(14)为了最小化误差函数f,利用最小二乘法求未知参量,令偏导数为0,结果即为所求。
2.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述数据源获取模块中获取数据源包括特定话题信息下的网络结构、用户历史行为集和状态统计量,其中,网络结构是指参与话题用户的关注关系构成的点边拓扑图;用户历史行为是指网络结构下的用户在话题开始前的网络活动日志;状态统计量是针对改进SIR模型统计得到的各个时刻的状态量。
3.根据权利要求1所述的一种基于用户行为的话题流行度预测系统,其特征在于,所述转发驱动力量化模块提取的个人转发驱动力和社交转发驱动力包括以下内容:个人转发驱动力:
(1)个人关注度:value[attention(ui)]
(2)个人历史转发率:value[retweetRate(ui)]
(3)个人活跃度:value[activity(ui)]
社交转发驱动力:
(1)话题兴趣相似度:value[inteSimil(ui,w)]
(2)社交感染率:value[socInfRate(ui,uj)]
(3)社交影响力:value[socEffe(ui,vj)]。
4.一种基于权利要求1‑3之一所述系统的话题流行度预测方法,其特征在于,包括以下步骤:数据源获取步骤、转发驱动力量化步骤及话题流行度预测步骤,其中,
数据源获取步骤包括:从现有的社交平台的API获取,或者通过网络爬虫抓取web中的内容获取社交网络用户数据;
转发驱动力量化步骤包括:从用户个人和社交两个维出发,提取影响用户转发的个人转发驱动力和社交转发驱动力,利用多元线性回归模型量化用户转发驱动力;
话题流行度预测步骤包括:首先,基于传统SIR模型以及社交网络中信息传播的特点,引入感染者粉丝转化为易感染群体用户状态F,从而重构信息传播规则和状态转移方程;其次,将转发驱动力量化模块量化后的用户转发驱动力引入到重构模型中,用于动态刻画传染病模型的动态感染率,通过时间切片技术提取各个状态量,利用最小二乘法拟合模型真实参量,预测话题信息流行度态势变化趋势,预测话题信息转发数;
所述转发驱动力量化模块利用多元线性回归量化用户个人和社交影响力,获得基于多维属性的转发概率P(ui),多元线性回归量化公式如下:P(ui)=θ0+θ1Pindividual(ui)+θ2Psocial(ui) 式(7)其中,θ0、θ1、θ2是偏回归系数,将归一化后的个人转发驱动力Pindividual(ui)表示为:关于κim中的m,令m分别取1,2,3用于表示用户个人转发驱动力,可以提取个人关注度、个人转发率、个人活跃度三个属性,而 代表不同属性下的最大值,U是话题用户集,以此实现个人转发驱动力的归一化处理;
考虑到话题的传播时间和邻居节点的带动力成反比,引入半衰减因子函数 刻画用户兴趣随时间衰减的情况,用t、t'分别表示话题当前时刻和开始时刻,w为正则化因子,定义用户社交转发驱动力Psocial(ui)为:χi1为兴趣相似度,关于χin中的n,令n分别取2,3,分别是社交感染率和社交影响力;
所述话题流行度预测模型中基于传统SIR模型,构建信息传播新的规则,具体步骤如下:S311:在新的规则中,认为消息沿着关注关系传播,只有当一个用户转发了一条信息后,其粉丝才会成为易感染者,而非整个网络中的消息未知者,在此基础上,构建基于SIR模型的改进F‑SIR模型,其中F表示粉丝,是感染者的粉丝到易感染的一个过度状态;
S312:根据以上的传播规则,动力学方程表示如下:
方程中, 表示当前时刻的平均转发概率,通过多元线性回归量化求得。