1.一种电影推荐方法,包括以下几个步骤:
步骤一、根据电影数据集中的电影的ID,从IMDB网站中提供的API中下载电影的电影海报;
步骤二、构建变分自编码,变分自编码包括一个编码器和和一个解码器,为了对解码器的概率条件分布qφ(z|x(i))进行参数估计,使用编码器的条件概率分布pθ(x(i)|z)去逼近真实的后验概率qφ(z|x(i)),并采用了相对熵来判断两个分布的相似程度,于是目标公式为:L(θ,φ;x(i))=KL(qφ(z|x(i)),pθ(x(i)|z))+logpθ(x(i))(i) (i) (i)
其中,L(θ,φ;x )是求取的损失函数,而KL(qφ(z|x ),pθ(x |z))则表示编码器的条件概率分布逼近解码器的条件概率分布的程度,θ和φ分别代表的是编码器和解码器的条件概率分布pθ(x(i)|z)和qφ(z|x(i)),x(i)其中的x代表的是电影样本,带括号的上标i代表的是计算的第i个电影样本;z是编码器的输出值以及解码器的输入值,对于编码器中的条件(i) 2分布pθ(x |z),式中参数θ的均值是μ',方差是σ',h'代表的是编码器的隐藏层,下式中W代表是权重矩阵而b1'到b3',代表编码器出现的均值、方差和隐藏层的偏置量,由于输入的图像是实值数据,所以μ'=Wh'+b1'
σ'2=Wh'+b2'
h'=tanh(Wz+b3')
对于解码器中的条件分布qφ(z|x(i))式中参数φ的均值是μ,方差是σ2,h则是代表的是解码器的隐藏层,b1到b3,代表解码器出现的均值、方差和隐藏层的偏置量,其值为:μ=Wh+b1
σ2=Wh+b2
h=tanh(Wz+b3)
根据以上假设,获取目标公式为:
其中,z(i,h)=μ(i)+σ(i)+ε(h),ε(h)~p(ε),ε是噪声变量,且它的维数n与z一致,H代表的是隐藏层的层数;构建好变分自编码后,使用部分电影海报对变分自编码进行训练并保存模型;
步骤三、使用训练好的变分自编码模型对电影海报进行特征提取,将变分自编码模型中的解码器的输入作为提取出来的n维的海报特征,同时又把电影海报特征作为电影的n维潜在特征向量,使用余弦相似度的公式计算电影之间相似度,同时按照电影的相似度进行排序;
步骤四、根据排序后的结果,选择相似度最相近的前N部电影作为推荐结果推荐给用户。
2.根据权利要求1所述的一种电影推荐方法,其特征在于;所述使用电影海报训练获得的变分自编码模型,包括一个编码器和一个解码器,变分自编码模型为无限监督的算法,对提取图片的潜在特征有良好的效果。
3.根据权利要求1所述的一种电影推荐方法,其特征在于;所述使用余弦相似度计算电影之间的相似度,其中,余弦相似度的计算公式如下:式中,X为待推荐电影的潜在特征向量,(x1,x2,x3,...,xn)=X,Y为其他电影的潜在特征向量,(y1,y2,y3,...,yn)=Y;遍历获取的电影海报,将提取的电影海报潜在特征作为电影的潜在特征,求出其他电影潜在特征与待推荐的电影潜在特征的相似度,由高到低进行排序。