1.一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,具体包括以下步骤:S1、获取用户浏览过的新闻标题和文本并记录点击时间,并对获取的数据进行预处理;
S2、使用LDA文档主题建模方法对预处理后的数据进行主题建模得到新闻的主题特征;
S3、根据领域方法得到用户物品倒排列表并结合主题特征进一步计算用户间的相似性,最后得到目标用户的最近邻用户;
S4、将目标用户和最近邻用户的数据输入到基于加权的三部图网结构中得到欲推荐给目标用户新闻的最终权重,按照该权值由高到低进行TOP-N推荐。
2.根据权利要求1所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,获取主题特征的过程包括:根据每篇新闻的主题分布和每个主题下词的分布,主题概率超过设定阈值时将该主题提取作为该新闻的主题特征,主题概率表示为:L(φ|θ)=∑∑logP(di,wj);
其中,L(φ|θ)为主题概率,φ为主题zk下的词的分布,θ是文档di下主题的分布;P(di,wj)表示的是任意文档di生成词wj的概率。
3.根据权利要求1所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,用户间的相似性计算包括:其中,Sab表示用户a与用户b之间的相似性;T(a)表示用户a浏览过的主题特征词。
4.根据权利要求1所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,利用基于权重三部图网络结构推获得欲推荐给目标用户新闻的最终权重的过程包括以下步骤:将用户集U={u1,u2,...,un}、物品集I={I1,I2,...,Im}、特征集T={T1,T2,...,Tp}三个数据集作为三部图网络的输入;
根据三个数据集内的节点之间的连接关系,创建三个关系矩阵,即用户-物品关系矩阵A、物品-主题关系矩阵B以及主题-用户关系矩阵C;
在用户端,根据用户拥有的主题计算用户的权重并对获得的权重进行归一化;
在主题端,分别从用户侧和物品侧考虑用户的主题权重,获得主题端的初始权重;
在物品端,分别从用户侧和主题侧考虑用户的物品权重,获得用户侧的物品权重和主题侧的物品权重;
基于权重的物质扩散,在初始化三部图之后,将三部图分解为物品-用户、物品-主题方向上的两个二部图;
物品的资源值从物品向用户、主题方向扩散,再从用户、主题向物品方向扩散,两个方向的扩散最终都会回到物品上,得到物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值;
根据物品-用户-物品方向的扩散的物品资源值和物品-主题-物品方向的扩散的物品资源值进行线性合成,获得物品资源值,即欲推荐新闻的最终权重;
按照物品资源值的由高到低进行对相关用户的TOP-N推荐。
5.根据权利要求4所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,根据用户拥有的主题计算用户的权重并对获得的权重进行归一化包括:其中, 表示用户ui的权重;E(ui)表示用户ui的主题的集合;E(umax)表示含有最多主题的用户umax的主题的集合; 表示用户ui的权重归一化后的值; 表示含有最多主题的用户umax的权重。
6.根据权利要求4所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,主题的初始化资源值表示为:其中, 为主题用户侧的初始资源; 为主题物品侧的初始资源值;λ1为主题的权重因子,λ1∈[0,1]。
7.根据权利要求4所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,物品的初始化资源值表示为:其中, 为物品用户侧的物品初始资源; 为物品主题侧的初始资源;λ2为物品的权重因子,λ2∈[0,1]。
8.根据权利要求4所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,物品资源值表示为:f(Ij)=λfu(Ij)+(1-λ)ft(Ij);
其中,fu(Ij)为用户向物品扩散后的资源值;ft(Ij)为主题向物品扩散后物品节点的资源值;λ为物品资源值权重因子,λ∈[0,1]。
9.根据权利要求8所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,用户向物品扩散后主题节点的资源值fu(Ij)表示为:其中,aij为用户-物品关系矩阵A中的元素,表示用户ui和物品ik的连接关系;f(Ui)表示物品向用户方向扩散后,用户节点的资源值;k(Ui)表示用户节点ui和其邻接物品间的边权重总和;ci物品节点的初始资源值;k(Ii)表示物品节点ik和其邻接用户间的边权重总和;m为物品的总数;n为用户的总数。
10.根据权利要求8所述的一种基于LDA主题模型的三部图新闻推荐方法,其特征在于,主题向物品扩散后物品节点的资源值ft(Ij)表示为:其中,aij用户ui和物品ik的连接关系;f(Ui)表示物品向用户方向扩散后,用户节点的资源值;k(Ti)表示的是主题节点与其邻接的物品节点的边权重总和值;ci物品节点的初始资源值;k(Ii)表示的是物品节点与其邻接的主题节点间的边权重的总和值;m为物品的总数;
n为用户的总数。