1.一种新闻主题表征方法,其特征在于,包括:利用关键词算法对新闻标题进行关键词提取,利用主题模型对新闻正文文本进行主题建模,然后对主题模型得到的主题分布和词分布分别进行采样,最后利用词向量对采样的关键词和主题词进行词向量化,具体步骤如下:
步骤1.1,利用TF‑IDF算法计算出每篇新闻标题中各个词的权重;
步骤1.2,利用LDA主题模型对新闻正文文本进行主题建模,训练获得每篇新闻正文的主题分布θ和词分布
步骤1.3,对于每篇新闻正文,采样其主题分布θ,选取概率值由大到小的前K个主题作为新闻正文的主题表示T={t1,t2,...,ti,...,tk};
步骤1.4,对于每篇新闻标题,选取标题中各词权重最高的2个词作为其关键词;
步骤1.5,对于每篇新闻的每个主题ti,根据其词分布 采样出词概率最高的前M个单词 加上该篇新闻标题的2个关键词,将这K*M+2个单词转换为词向量表征集W={w1,w2,...,wi,...,wK*M+2};
步骤1.6,对于第i篇新闻的词向量表征集Wi,分别以词分布和主题分布的概率值作为其权重,依次对每个主题的各个单词、每篇新闻的各个主题进行加权平均,最终将这K*M+2个词向量映射到一个词向量Embeddingi中,将该词向量作为该篇新闻的主题表征;
步骤1.7,遍历整个新闻语料集,循环执行步骤1.3到步骤1.6,可得到语料集中每篇新闻的主题表征集合D={d1,d2,...,di,...,dN};其中,N为用户浏览新闻语料库中新闻的数量。
2.根据权利要求1所述的新闻主题表征方法,其特征在于,所述步骤1.1之前还包括:语料获取,通过爬虫技术实时获取新闻网站最新的新闻内容和用户浏览信息,将全网新产生的新闻保存到新闻语料库中;将用户id、浏览新闻id、新闻标题、新闻详细内容、新闻发布时间以及用户阅读该新闻的时间以用户为单位保存到用户语料库中。
3.根据权利要求2所述的新闻主题表征方法,其特征在于,所述语料获取之后还包括:数据预处理,清除缺值和空值的记录;删除不可识别的字符和URL;使用分词工具对新闻文本分词,去除停用词。
4.根据权利要求1所述的新闻主题表征方法,其特征在于,所述步骤1.7之后还包括:新闻消重,对于用户的新闻主题表征集合,利用余弦相似度算法,计算其相似度,剔除相似度超过阈值γ的新闻,将新闻消重的结果,放入最终的新闻数据集中。
5.一种基于RNN的序列化新闻推荐方法,其特征在于,基于权利要求1至4中任意一项所述的新闻主题表征方法,利用RNN序列化建模的特性,依次输入每篇新闻的向量化表示序列到RNN中,经过隐藏层以及激励函数,最终将学习到的隐藏层向量,传入全连接网络中,得到待预测新闻的向量表示,具体步骤如下:
步骤5.1,将主题表征集合D中新闻按照用户阅读的先后顺序依次输入到网络中,利用当前输入的文档向量dt与上一个隐藏层状态St‑1共同计算得到当前文档的隐藏层状态St,再根据隐藏层状态St传入softmax分类器中,得到RNN当前输出向量ot,即:St=f(U*dt+W*St‑1),ot=softmax(VSt);其中U、W、V分别代表了输入层、隐藏层与输出层的权重矩阵,f(*)是激活函数;
步骤5.2,将RNN序列最后一个输出层的输出oN输入到全连接网络中,得到神经网络最终预测向量Predict;
步骤5.3,从当前新闻语料库中,选取该用户未曾阅读过且分布时间最新的新闻文档向量{p1,p2,...,pi,...,pn},使用余弦相似度算法分别计算Predict与pi相似性,选取相似度最大的新闻作为最终推荐,即R={max{sim(predict,pi)}}。
6.一种基于注意力机制的新闻推荐方法,其特征在于,基于权利要求1至4中任意一项所述的新闻主题表征方法,利用注意力机制动态计算新闻序列中不同的新闻对推荐预测结果的影响力权重,根据影响力权重,具体步骤为:步骤6.1,计算输入新闻序列的隐含向量hs与待预测的新闻的隐含向量ht之间的相关性,如下:
其中,hs是输入端第s篇新闻的隐含变量,ht是推荐预测序列第t篇新闻的隐含变量,ast是推荐预测序列第t篇新闻与输入序列第s篇新闻的相关性权重,score(*)是相关性打分函数,va、Wa、Ua是权值矩阵,tanh(*)是非线性激活函数;
步骤6.2,根据相关性打分计算输入的新闻序列中不同新闻对于预测新闻i的注意力分配权重ci, 其中i为推荐序列中新闻编号,j为输入序列中新闻编号,从而突出不同新闻对最终推荐预测的影响力的差异性;
步骤6.3,将注意力分配权重ci与输入序列的输出oN输入到全连接网络中,计算推荐预测向量的值Predict=f(U*ci+V*oN);其中U和V为权重矩阵,f(*)为非线性激励函数;
步骤6.3,从当前新闻语料库中,选取该用户未曾阅读过且分布时间最新的新闻文档向量{p1,p2,...,pi,...,pn},使用余弦相似度算法分别计算Predict与pi相似性,选取相似度最大的新闻作为最终推荐,即R={max{sim(predict,pi)}}。
7.一种基于DBSCAN和注意力机制的新闻推荐方法,其特征在于,基于权利要求1至4中任意一项所述的新闻主题表征方法,利用DBSCAN密度聚类算法对用户阅读的新闻向量集进行聚类,区分出新闻向量集中类内点和离群点,并以此重构注意力分配过程,突出离群点对注意力分配的影响,以此实现对新旧话题进行启发式发现,提升推荐话题的新颖性,具体步骤如下:
步骤7.1,利用DBSCAN密度算法对每个用户的新闻向量集进行聚类,包括:①先初始化核心对象集合为空集:Ω=φ;②遍历新闻向量集D中每一个向量 计算其中N为该用户阅读新闻的数量, 为 的ε邻域,distance(*)为欧式距离函数,ε为半径参数;③如果 则其中MinPts为领域密度阈值,即对任一向量点 若其ε邻域对应的 至少包含MinPts个样本,则 是核心对象放入核心对象集合Ω中;④以任一未访问过的核心对象为出发点,找出其密度可达的向量点生成的聚类簇,直到所有的核心对象都被访问,迭代终止;
步骤7.2,根据DBSCAN密度聚类的结果进行离群点检测与标识,即通过密度聚类,可将原向量集的点聚集成很多簇cluster={c1,c2,...,ci,...},初始化离群点集Z=φ,①若向量点 不属于任何一个簇,则该点为离群点,加入离群点集 ②统计各簇的大小|N(ci)|,若簇大小|N(ci)|小于密度阈值γ,则将小簇ci内所有点视为离群点,加入离群点集合Z=ZU{ci};
步骤7.3,依次输入用户阅读的新闻向量到模型中,计算输入新闻序列的隐含向量hs与待预测的新闻的隐含向量ht之间的相关性,如下:其中,hs是输入端第s篇新闻的隐含变量,ht是推荐预测序列第t篇新闻的隐含变量,ast是推荐预测序列第t篇新闻与输入序列第s篇新闻的相关性权重,score(*)是相关性打分函数,va、Wa、Ua是权值矩阵,tanh(*)是非线性激活函数;
步骤7.4,判断该当前输入向量xj是否在离群点集Z,若xj∈Z,则加入权重偏置bj;若则不加入权重偏置bj;更新注意力权重分配ci为 其中i为推荐序列中新闻编号,j为输入序列中新闻编号,hj为输入序列第j篇新闻的隐含变量,aij是输入序列第j篇新闻与推荐预测序列第i篇的相关性权重,bj是注意力分配偏置;
步骤7.5,将注意力分配权重ci与输入序列的输出oN输入到全连接网络中,计算推荐预测向量的值Predict=f(U*ci+V*oN),其中U、V为权重矩阵,f(*)为非线性激励函数;
步骤7.6,从当前新闻语料库中,选取该用户未曾阅读过且分布时间最新的新闻文档向量{p1,p2,...,pi,...,pn},使用余弦相似度算法分别计算Predict与pi相似性,选取相似度最大的新闻作为最终推荐,即R={max{sim(predict,pi)}}。
8.一种基于DBSCAN和注意力机制的循环神经网络序列化新闻推荐方法,其特征在于,利用TF‑IDF、主题模型提取语义特征,结合词向量模型映射得到文档的语义向量,利用密度聚类算法对语义向量聚类,将语义向量依次输入循环神经网络训练,根据密度聚类离群点的判断,为输入向量分配不同的注意力权重,最终神经网络训练结果放入softmax分类器中得到最终的预测向量,利用余弦相似度算法,找到最新的新闻向量集中与预测最相近的新闻,作为推荐预测;具体步骤如下:
步骤8.1,语义提取与表征,使用word2vec模型对新闻标题和内容训练词向量;对新闻标题利用TF‑IDF提取关键词;对新闻内容利用LDA主题模型提取主题,根据各关键词出现概率,对关键词的词向量进行加权平均;根据主题的相关词的词向量,并结合词表征主题的概率值对词向量进行加权平均,得到主题向量表征;根据新闻内容的相关主题以及各主题表征文档的概率值,对主题表征向量进行加权平均,最终得到新闻文档的语义表征向量集;
步骤8.2,主题密度聚类,对所述语义表征向量集,利用DBSCAN算法对各用户浏览的新闻集合进行密度聚类,找寻其中聚类中心点和离群点;
步骤8.2,基于注意力机制的序列化推荐预测,将所述语义表征向量集作为输入,构建循环神经网络序列模型,根据密度聚类对中心点和离群点的判断,为输入向量的隐变量赋予不同的注意力权重,对结合注意力机制的循环神经网络模型进行训练,将神经网络的训练结果放入softmax分类器中得到最终的预测向量,利用余弦相似度算法,找到最新的新闻向量集中与预测最相近的新闻,作为推荐预测。