欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100139522
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的个性化文本推荐方法,其特征在于:包括以下步骤:S1:用户浏览新闻的历史行为数据和文本数据预处理;具体包括:S11:将数据集中的点击信息数据进行预处理操作,包括缺失值处理和异常值处理;S12:按照每个用户分组形成用户浏览数据集、正采样和负采样数据集,所述正采样数据集:即该用户点击操作过的数据;负采样数据集:即用户从所有未点击过的数据中随机挑选出的数据;S13:按照时间戳进行排序,数据只关注用户与新闻交互的隐形反馈,即只关心用户是否浏览了某篇新闻;在正采样数据集中对于每个用户都有其相应的用户浏览序列;S14:对新闻浏览序列进行编码表示,被浏览位置使用独热码表示,使用与新闻数量相同维度的向量进行表示;对于每个点击位置,只激活新闻被点击相应位置的数据,即该位标1,其余位置为0;对用户浏览时长进行独热码编码表示,当浏览时长大于15s,标记为1,小于15s标记为0;S15:将点击序列信息编码后的向量,作为每个用户浏览序列中一个条目的数据;S2:特征提取器建模,具体包括:S21:隐藏层设计;将用户浏览数据集的one‑hot编码输入后,在隐藏层中使用一个权重矩阵来对用户浏览序列信息编码向量降维,用于将高维稀疏向量映射到低维密集向量;权重矩阵的形式为m×n,其中m为稀疏向量的维度,n为密集向量的维度,且m大于n;隐藏层看作是重新对原始数据进行降维编码,而编码规则是通过在网络中训练权重而自动生成的;S22:输出层设计;对于隐藏层中输出状态的信息,送入输出层,输出层的损失函数为条件概率函数,损失函数即为输出单词组的条件概率,损失函数公式如下:式中,L表示损失,s表示用户浏览数据集合,li表示数据集合中的每一个条件样本,j表示函数运算的每一个上下文,m表示步长窗口的最大值;通过以li为中心的点击序列来估算其上下文领域li+j的概率p(li+j|li),其中:

vl和v′l是点击列表l的输入和输出向量表示,参数j定义为点击列表的中心前后滑动的窗口长度,υ为所有用户的点击序列集合;损失函数的总体目标是最大化当条件样本发生时其上下文样本序列发生的概率,最终得到的一个向量序列来表示条件样本;采用负采样的优化办法优化目标函数,负采样的原理为:生成一组点击序列正对Dp(l,c),即该用户点击操作过的数据,和一组点击序列负对Dn(l,c),即用户从所有未点击过的数据中随机挑选出的数据,目标函数变为如下形式:其中参数l,c∈υ,v′lb为用户的浏览时长序列,在每个步骤中,研究目标不仅预测相邻的点击列表,而且还要预测最终在某新闻的停留时间,用来进一步优化计算机结果,目标函

数通过随机梯度上升进行优化求解;S3:个性化推荐模型建模,具体包括:S31:一维卷积网络层设计;S32:分类输出层与损失函数设计。2.根据权利要求1所述的基于深度学习的个性化文本推荐方法,其特征在于:在步骤S31中,使用长度为1、2、3、4的一维卷积核,将步骤S2中所得的向量分别通过卷积运算进行卷积,并使用激活函数后,将不同卷积核的输出结果进行拼接,生成操作数据。3.根据权利要求1所述的基于深度学习的个性化文本推荐方法,其特征在于:在步骤S32中,对于卷积层输出状态的信息,送入全连接层的输出层,全连接层的激活函数使用softmax,softmax能够将多个神经元分别输出,映射至(0,1)的区间内,所有输出的累加和为1,满足概率的性质,因此能够将每个输出看成相对应分类的概率来理解,从而进行分类;总分类数量即为总新闻的数量,最终选择概率最高的多部生成推荐列表,损失函数使用分类交叉熵,其公式如下:式中,用loss表示损失,n为样本数,m为分类数;i表示样本中所有位置,j表示分类既向量中分类的索引位置,yij为实际元素值,y′ij为预测元素值;当yij为1时,计算损失,y′ij越接近于1,则损失越小,当yij为0时,则不考虑y′ij造成的损失。