1.一种基于读者偏好的个性化数字图书推荐系统,其特征在于,包括数据输入模块、编码器模块、语义融合模块、解码器模块和预测评分模块;
所述数据输入模块用于将图书文本转化为低维词嵌入向量;
所述编码器模块包括图书语义编码模块和兴趣度量模块;
所属图书语义编码模块用于将低维词嵌入向量转化为具有图书语义的特征向量;
所述兴趣度量模块用于根据读者历史浏览直接行为和间接行为,计算读者兴趣度Id;
所述语义融合模块用于将图书语义特征向量和读者兴趣度Id融合生成读者偏好向量;
所述解码器模块用于计算候选图书语义特征向量和读者偏好向量的相似度量;
所述预测评分模块用于输出图书的推荐结果。
2.基于权利要求1所述的一种基于读者偏好的个性化数字图书推荐系统实现的一种基于读者偏好的个性化数字图书推荐方法,其特征在于,包括以下步骤:S1对输入的数据进行预处理,将图书文本转化为低维词嵌入向量;
S2将低维词嵌入向量转化为具有图书语义的特征向量;
S3根据读者历史浏览交直接行为和间接行为,计算读者兴趣度Id;
S4将图书语义特征向量与读者兴趣度相融合生成读者偏好向量;
S5计算候选图书特征向量与读者偏好向量之间的相似度量;
S6将相似度量计算结果输入到预测评分模块得到预测评分,输出候选图书的Top‑N作为推荐结果。
3.根据权利要求2所述的方法,其特征在于,步骤S1所述将图书文本转化为低维词嵌入向量的方法具体是,包括以下步骤:S11使用分词工具进行分词处理,具体是:将图书页面的标题、摘要、目录三部分的文本内容按照先后顺序提取出来形成训练文本p,每个训练文本p由n个词组成p={e1,e2,......,en};一次会话中用户点击的图书序列为T={p1,p2,......,pm};
S12将步骤S11所述的分词结果按照One‑Hot编码;
S13词嵌入将One‑Hot高维稀疏向量转换为低维稠密向量,具体是:词ei经过One‑hot编码得到vi,经词嵌入转化为低维词嵌入向量xi,公式如下:xi=W·vi
其中,vi为第i个词的One‑hot编码向量,W为词嵌入矩阵,xi表示第i个词嵌入向量,最终传到下一层的文本低维词嵌入向量表示为:Semb={x1,x2,...,xn}。
4.根据权利要求3所述的方法,其特征在于,步骤S2所述将低维词嵌入向量词转化为具有图书语义特征向量的方法具体是,A将低维词嵌入向量转经过BiLSTM模型输出隐态向量;
将图书低维词嵌入向量作为BiLSTM模型的输入,经每个时间步长t都会生成一个隐态向量Ht输出;
BiLSTM模型在t时刻的隐藏状态,包含前向的 和后向的 具体计算如下:
其中,ht‑1为t‑1时刻隐层的输出,xt为当前时刻即t时刻的输入,Ct‑1为t‑1时刻细胞状态, 为t时刻LSTM的前向输出, 为t时刻LSTM的后向输出,Ht为t时刻前向和后向两个方向的结合;
B经过注意力机制输出图书语义特征向量;
BiLSTM模型的输出为H=[h1,h2,...,hn],经由注意力机制的两层Attention编码,H经第一层Self‑Attention;
a)计算sti
其中,相似度函数选取缩放点积模型, 为缩放比例因子,dk为词向量的维度,qt为查询、ki为键,hi和hj分别为第i个词向量和第j个词向量,sti为相关系数表示序列内部第i个词和第j个词之间的关联程度;
b)计算αti
其中,softmax为激活函数,将值映射到[0,1]区间内,αti为第i个注意力权重系数;
c)计算ui
其中,αti为第i个注意力权重系数,hi为第i个词向量,ui为第i个向量的第一层Self‑Attention输出;
d)第一层Self‑Attention提取到的图书特征向量P={u1,u2,...un}作为第二层序列间注意力层的输入,各个图书序列间的注意力权重为:T
s(pt,pj)=vtanh(Wpt+Upj)d d×d d
其中,相似度函数选取加性模型,模型中v、W、U是可训练的参数,v∈R ,W∈R ,U∈R×d
,pt和pj分别为第t个和第j个序列,αj为第j个序列注意力权重;将各个序列下的注意力融合,最终得到的第j个图书语义特征向量表示为:其中,αj为第j个序列的注意力权重,pj为第j个序列,cj为第二层Attention输出的第j个图书语义特征向量。
5.根据权利要求4所述的方法,其特征在于,步骤S3所述计算读者兴趣度ID的具体方法是:
其中,Id表示读者对页面内容感兴趣的程度,a表示读者行为,Direct表示直接行为,Indirect表示间接行为。
6.根据权利要求5所述的方法,其特征在于,步骤S4所述将图书语义特征向量与读者兴趣度相融合生成读者偏好向量的具体方法是:vi={ci,Idi}
其中,ci为第i个图书语义特征向量,Idi量为读者对第i个图书的兴趣度,vi为读者对第i个图书的偏好向量。
7.根据权利要求6所述的方法,其特征在于,步骤S5计算候选图书语义特征向量与读者偏好向量之间的相似度量的具体方法是:T
Sim(ci,cj)=ci·(cj)其中,ci为第i个图书语义特征向量,cj为第j个图书语义特征向量,Sim(ci,cj)为候选图书语义特征向量与读者偏好向量之间的相似度量;
读者对候选图书的感兴趣程度为读者对候选图书的预评分,考虑图书网页本身的文本语义和读者的浏览兴趣两方面,在计算读者预测评分时需要将两项结合起来,其中,Ej为读者对候选图书的预评分。
8.根据权利要求3所述的方法,其特征在于,所述的直接行为具体包括:保存页面、复制页面、打印页面、收藏页面;所述的间接行为具体是阅读时间。
9.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至8任一项所述的一种基于读者偏好的个性化数字图书推荐方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述的一种基于读者偏好的个性化数字图书推荐方法。