1.一种社交话题群体行为的预测方法,其特征在于,所述预测方法包括以下步骤:S1、将话题数据生成器和话题数据判别器构建出对抗生成网络,对话题数据进行数据增强;
S2、对数据增强后的话题数据按照话题属性和话题数据倾向性的关系,采用节点游走策略计算出话题节点游走到下一话题节点的概率,游走完成后形成话题序列;
所述采用节点游走策略计算出话题节点游走到下一话题节点的概率的计算公式表示为:其中,P(r|ci,ci‑1)表示在前一个话题节点ci‑1的基础上,当前话题节点ci游走到下一话题节点r的概率;ap,q(ci‑1,r)表示话题节点ci‑1与话题节点r之间的权重调整参数;β(ci,r)表示当前话题节点ci与下一话题节点r间属性的相似度;γ(ci,r)表示当前话题节点ci到下一话题节点r传输的话题网络的边权值;
S3、以最大化概率熵为目标,提取出游走完成的话题序列的低维向量;
S4、采用融合注意力机制将数据增强后的话题数据的文本信息映射到低维的向量空间,提取出影响群体行为的文本特征因素;
S5、输入话题序列的低维向量和文本特征因素,采用卷积神经网络预测出下一时间段的潜在话题节点群体用户是否会参与热点话题的传播。
2.根据权利要求1所述的一种社交话题群体行为的预测方法,其特征在于,所述S1包括对原始话题序列进行随机采样,并将随机采样后的结果输入到话题数据生成器中生成话题数据;利用话题数据判别器验证所述话题数据为真实话题数据的概率;极大化所述话题数据判别器的判别能力,且极小化所述话题数据生成器被判别为生成数据的概率,将所述话题数据生成器和所述话题判别器进行反复迭代,按照局部优化和全局优化的规则,直至所述话题数据生成器输出的话题数据与真实的话题数据近似。
3.根据权利要求2所述的一种社交话题群体行为的预测方法,其特征在于,所述原始话题序列包括社交网络中用户关系网、用户历史行为信息、用户文本信息以及用户基本属性。
4.根据权利要求1所述的一种社交话题群体行为的预测方法,其特征在于,所述权重调整参数的计算公式表示为:其中, 表示前一个话题节点ci‑1和话题节点r之间的最短路径,取值范围为{0,1,
2};p表示返回参数,即重复游走到前一个话题节点的可能性,q表示出入参数,即话题节点的游走特性。
5.根据权利要求1所述的一种社交话题群体行为的预测方法,其特征在于,所述话题网络的边权值的计算公式表示为:其中,intract(ci ,r) 表示话题节点ci与话题节点r的交互 度,表示话题节点r是否关
注话题节点ci,Actkb表示话题节点r基于行为b处理话题节点ci的第k条微博,t表示当前热点话题的时间,tk表示用户ci发布第k条微博的时间,K表示用户ci发布的微博总数。
6.根据权利要求1所述的一种社交话题群体行为的预测方法,其特征在于,所述以最大化概率熵为目标函数,提取出游走完成的话题序列的低维向量包括以最大化概率熵为目标表示为:其中,Pr(nj|f(w))表示话题节点w的低维向量f(w)中出现邻域节点nj的概率,Ns(w)表示话题节点w的邻域节点集合。
7.根据权利要求1所述的一种社交话题群体行为的预测方法,其特征在于,所述采用融合注意力机制将数据增强后的话题数据的文本信息映射到低维的向量空间,提取出影响群体行为的文本特征因素包括采用doc2vec算法对用户的每条文本进行向量表示;采用分层次的注意力机制为文本向量和文本中的词向量赋予不同的权重;选择性的挑选出用户兴趣特征向量。
8.一种社交话题群体行为的预测装置,其特征在于,所述预测装置包括:
话题数据生成器,用于生成话题数据;
话题数据判别器,用于判别生成的话题数据为真实数据或虚假数据的概率,并与所述话题数据生成器构成对抗生成网络;
话题序列生成器,采用节点游走策略计算出话题节点游走到下一话题节点的概率,游走完成后形成话题序列;
所述采用节点游走策略计算出话题节点游走到下一话题节点的概率的计算公式表示为:其中,P(r|ci,ci‑1)表示在前一个话题节点ci‑1的基础上,当前话题节点ci游走到下一话题节点r的概率;ap,q(ci‑1,r)表示话题节点ci‑1与话题节点r之间的权重调整参数;β(ci,r)表示当前话题节点ci与下一话题节点r间属性的相似度;γ(ci,r)表示当前话题节点ci到下一话题节点r传输的话题网络的边权值;
话题序列降维模块,用于以最大化概率熵为目标,提取出游走完成的话题序列的低维向量;
文本特征提取模块,用于采用融合注意力机制将数据增强后的话题数据的文本信息映射到低维的向量空间,提取出影响群体行为的文本特征因素;
卷积神经网络模块,用于输入话题序列的低维向量和文本特征因素,预测输出下一时间段的潜在话题节点群体用户是否会参与热点话题的传播。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现以下步骤:将话题数据生成器和话题数据判别器构建出对抗生成网络,对话题数据进行数据增强;
对数据增强后的话题数据按照话题属性和话题数据倾向性的关系,采用节点游走策略计算出话题节点游走到下一话题节点的概率,游走完成后形成话题序列;
所述采用节点游走策略计算出话题节点游走到下一话题节点的概率的计算公式表示为:其中,P(r|ci,ci‑1)表示在前一个话题节点ci‑1的基础上,当前话题节点ci游走到下一话题节点r的概率;ap,q(ci‑1,r)表示话题节点ci‑1与话题节点r之间的权重调整参数;β(ci,r)表示当前话题节点ci与下一话题节点r间属性的相似度;γ(ci,r)表示当前话题节点ci到下一话题节点r传输的话题网络的边权值;
以最大化概率熵为目标,提取出游走完成的话题序列的低维向量;
采用融合注意力机制将数据增强后的话题数据的文本信息映射到低维的向量空间,提取出影响群体行为的文本特征因素;
输入话题序列的低维向量和文本特征因素,采用卷积神经网络预测出下一时间段的潜在话题节点群体用户是否会参与热点话题的传播。