1.一种基于时间加权的三部图新闻推荐方法,其特征在于,包括:输入获取的用户浏览的新闻数据,根据获取的用户浏览的新闻数据计算优化后的新闻资源值;根据优化后的新闻资源值进行新闻推荐;
所述用户浏览的新闻数据包括浏览的时间、新闻标题和新闻文本;
所述计算优化后的新闻资源值的过程包括:采用热量扩散算法计算新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值,采用时间权重函数对新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值融合,得到优化后的新闻资源值;
所述时间权重函数包括用户‑新闻侧的时间权重以及新闻‑主题侧的时间权重;
用户‑新闻侧的时间权重公式为:
新闻‑主题侧的时间权重公式为:
其中,a和λ为可调节参数,t为当前时刻,tu,i是用户浏览新闻i的时刻,b表述衰减函数,tlast是用户最后一次访问主题tk的时刻,tfirst是用户第一次访问主题tk的时刻,P(tk)是利用LDA主题模型从新闻文本中提取的关于主题tk的归一化的概率分布,LDA表示经典主题模型;
优化后的新闻资源值fH(Ij)的公式为:
其中,λ表示调和参数,fHu(Ij)表示新闻向主题传导后的主题结点资源值,fHt(Ij)表示主题向新闻传导后新闻结点的资源值,Ij表示用户浏览的新闻的项目, 表示新闻‑主题侧的时间权重。
2.根据权利要求1所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取新闻向主题传导后的主题结点资源值和主题向新闻传导后新闻结点的资源值过程包括:步骤1:获取目标用户浏览的新闻数据和与目标用户邻近用户所浏览的新闻数据;
步骤2:根据目标用户浏览的新闻数据和邻近用户浏览的新闻数据构建三部图网络推荐模型;
步骤3:根据三部图网络推荐模型计算新闻的初始资源;
步骤4:采用基于权重热量传导算法将三部图网络推荐模型分解为“新闻‑用户”和“新闻‑主题”方向上的两个二部图;
步骤5:将新闻的初始资源输入“新闻‑主题”的二部图中,得到新闻向主题传导后的主题结点资源值;
步骤6:将新闻的初始资源输入“新闻‑用户”的二部图中,得到主题向新闻传导后新闻结点的资源值。
3.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取三部图网络推荐模型的过程包括:步骤1:将用户集U={u1,u2,…,un}、项目集I={I1,I2,…,Im}、特征集T={t1,t2,…,tp}输入到三部图网络中;
步骤2:根据三个数据集内的节点之间的连接关系,创建三个关系矩阵A,B,C;
其中,矩阵A是用户‑项目关系矩阵,若用户ui与项目Ij间存在连接关系,即用户选择过该项目,则aij=1;否则为0;
矩阵B是项目‑主题关系矩阵,如果项目Ii与主题tj间存在连接关系,则βij=1;否则为0;
矩阵C是主题‑用户关系矩阵,如果用户ui使用过主题tj,用cij表示用户对该主题使用的次数。
4.根据权利要求2所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,获取与目标用户邻近用户的过程包括:获取目标用户浏览新闻的主题特征;采用邻域方法对目标用户浏览过的新闻文本进行编号处理,得到目标用户浏览新闻项目倒排列表;根据目标用户浏览新闻项目倒排列表和目标用户浏览新闻的主题特征计算用户间的相似性;根据相似性的大小得到与目标用户最邻近的用户。
5.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述得到与目标用户最邻近用户的步骤包括:步骤1:找到和目标用户有着相似浏览行为的用户;
步骤2:提取用户所浏览过的新闻主题特征;
步骤3:根据主题特征建立用户—主题倒排列表;
步骤4:使用jaccard公式计算用户间的相似度;
步骤5:按照相似度由高到低取前N个用户作为最近邻用户;
其中,jaccard表示一种相似度计算方法。
6.根据权利要求5所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述计算用户间的相似度的公式为:其中,T(a)是用户a浏览过的主题特征词,T(b)是用户b浏览过的主题特征词,∩表示交运算,∪表示并运算。
7.根据权利要求4所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,所述获取目标用户浏览新闻的主题特征的过程包括:步骤1:根据浏览的用户数据获取新闻d的生成词wj,并求取在新闻d的条件下生成词wj的概率为P(wj|d);
步骤2:根据P(wj|d)求取任意文本di中生成词wj的概率P(di,wj);
步骤3:根据P(di,wj)求取含有N个词的新闻生成所有词的概率P(W|di);
步骤4:根据P(di,wj)求取所有语料库生成所有词的概率P(W|D);
步骤5:使用EM算法优化P(zk|di)和P(wj|zk),得到每篇新闻的主题分布和每个主题下词的分布;
步骤6:对每篇文档在得到其主题分布后取分布概率最大的三个主题作为该新闻的主题特征;
其中,EM表示对LDA主题模型的两个参数进行优化,W表示所有词的集合,D表示所有文档的集合,zk表示文档的某个主题。
8.根据权利要求7所述的一种基于时间加权的三部图新闻推荐方法,其特征在于,EM算法优化的公式为:其中, 表示主题zk下的词的分布,θ表示文档di下的主题分布。