1.一种基于深度神经网络影视标签自动获取方法,其特征在于,所述方法包括以下步骤:步骤1:收集电影的台词,构建台词数据集;
步骤2:收集电影原声,构建声音数据集;
步骤3:在影视平台收集其所生成的标签,构建电影标签数据集;
步骤4:构建基于电影台词的自动打标签模型;
步骤5:采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型;
步骤6:融合步骤4与步骤5所提及的两种模型。
2.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法,其特征在于:所述步骤1中,收集电影的台词,所述行为数据不包括电影结尾彩蛋部分。
3.如权利要求2所述的一种基于深度神经网络自动给影视打标签方法,其特征在于:所述步骤2中,根据步骤1中的收集的电影台词,相对收集其所对应的电影原声,所述行为数据也不包括结尾彩蛋部分。
4.如权利要求3所述的一种基于深度神经网络影视标签自动获取方法,其特征在于:所述步骤3中,所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视;构建电影标签数据集包括以下过程:
3.1)合并5个平台所采集的所有标签,确保没有重复标签;
3.2)对所有标签进行格式标准化,包括文字编码统一以及标签分隔符统一;
3.3)将步骤1,步骤2中的电影与收集到的标签对应起来。
5.如权利要求4所述的一种基于深度神经网络自动给影视打标签方法,其特征在于:所述步骤4中,构建基于电影台词的自动打标签模型包括以下过程:
4.1)用WordPiece工具来进行分词,并插入特殊的分离符([CLS],用来分隔样本)和分隔符([SEP],用来分隔样本内的不同句子),每个句子都对应的是一个矩阵X=(x1,x2,...,xt),其中xi都代表着第i个词的词向量(行向量),维度为d维,故x∈Rn×d,利用下列公式进行编码:其中A,B为另外引入的另一个序列(矩阵),引入A,B的目的是为了让xt与每一个单词进行比较,从而得到yt;
4.2)将上一步的结果输入模型进行预训练,模型计算公式如下:及
其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens,更进一步,设logptk为rk,建立双向模型,此模型便于对大规模文本进行训练,模型计算公式如下:其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens,θx是输入,输入的内容是最初始的词向量,θs是归一化层参数, 为前向LSTM模型, 为后向LSTM模型,在此基础上,百分之十五通过wordpiece所产生词向量会被随机遮掩;
4.3)经过模型预训练之后对向量进行嵌入操作,嵌入操作的种类中,Token embedding表示当前词的embedding,Segment Embedding表示当前词所在句子的index embedding,Position Embedding表示当前词所在位置的index embedding,其中为了能够同时表示单句子和句子对,多句子需要进行拼接作为单个句子用segment embedding和[SEG]来进行区分;三个embedding进行求和得到输入的向量;
4.4)将上一步中所生成的向量作为输入放进层数为12,维度为768的Transformer模型中;
4.5)利用fine-tuning微调对模型进行修改,取token的输出,作为输入softmax归一化层的输入,从而得到电影标签预测结果的输出。
6.如权利要求5所述的一种基于深度神经网络自动给影视打标签方法,其特征在于:所述步骤5中,采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程:
5.1)通过快速傅立叶变换FFT得到与步骤4所对应的声音数据集的功率谱,然后利用三角窗函数将频谱映射到梅尔标度,计算公式如下:其中f为赫兹频率,设E(b),0≤b
5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换,每个傅里叶变换都生成一帧,这些连续的帧组合成矩阵构成频谱,最后在将线性的频率轴上变换成梅尔尺度,对在频率轴上分布不均的幅值进行对数缩放,再将其作为音频信号的特征表示;
5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层,窗口大小为
8;
5.4)将上一步的输出放入池化窗口长度为4最大池化层;
5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.6)将上一步的输出放入池化窗口长度为4最大池化层;
5.7)构建多个上述模型,采用共享节点,分别输出深度特征序列;
5.8)由于电影的长度不同,输入的片段个数也就不同,把上述传统三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性,最后输出预测标签值。
7.如权利要求6所述的一种基于深度神经网络自动给影视打标签方法,其特征在于:所述步骤6中,融合步骤4与步骤5所提及的两种模型包括以下过程:
6.1)音频表示和文本表示在通过各自的基础网络,选择使用卷积神经网络结构,经过批规范化操作后进行拼接,最后进行尺度变换得到输出;
6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512的两个全连接层中,最后输出标签预测值。