知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度神经网络影视标签自动获取方法

￥32200

专利号： 2019106275458

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度神经网络影视标签自动获取方法，其特征在于，所述方法包括以下步骤：步骤1：收集电影的台词，构建台词数据集；

步骤2：收集电影原声，构建声音数据集；

步骤3：在影视平台收集其所生成的标签，构建电影标签数据集；

步骤4：构建基于电影台词的自动打标签模型；

步骤5：采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型；

步骤6：融合步骤4与步骤5所提及的两种模型。

2.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法，其特征在于：所述步骤1中，收集电影的台词，所述行为数据不包括电影结尾彩蛋部分。

3.如权利要求2所述的一种基于深度神经网络自动给影视打标签方法，其特征在于：所述步骤2中，根据步骤1中的收集的电影台词，相对收集其所对应的电影原声，所述行为数据也不包括结尾彩蛋部分。

4.如权利要求3所述的一种基于深度神经网络影视标签自动获取方法，其特征在于：所述步骤3中，所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视；构建电影标签数据集包括以下过程：

3.1)合并5个平台所采集的所有标签，确保没有重复标签；

3.2)对所有标签进行格式标准化，包括文字编码统一以及标签分隔符统一；

3.3)将步骤1，步骤2中的电影与收集到的标签对应起来。

5.如权利要求4所述的一种基于深度神经网络自动给影视打标签方法，其特征在于：所述步骤4中，构建基于电影台词的自动打标签模型包括以下过程：

4.1)用WordPiece工具来进行分词，并插入特殊的分离符([CLS]，用来分隔样本)和分隔符([SEP]，用来分隔样本内的不同句子)，每个句子都对应的是一个矩阵X＝(x1，x2，...，xt)，其中xi都代表着第i个词的词向量(行向量)，维度为d维，故x∈Rn×d，利用下列公式进行编码：其中A,B为另外引入的另一个序列(矩阵)，引入A，B的目的是为了让xt与每一个单词进行比较，从而得到yt；

4.2)将上一步的结果输入模型进行预训练，模型计算公式如下：及

其中t1，t2...，tN为连续的tokens，t1，t2...，tk也为连续的tokens，更进一步，设logptk为rk，建立双向模型，此模型便于对大规模文本进行训练，模型计算公式如下：其中t1，t2...，tN为连续的tokens，t1，t2...，tk也为连续的tokens，θx是输入，输入的内容是最初始的词向量，θs是归一化层参数，为前向LSTM模型，为后向LSTM模型，在此基础上，百分之十五通过wordpiece所产生词向量会被随机遮掩；

4.3)经过模型预训练之后对向量进行嵌入操作，嵌入操作的种类中，Token embedding表示当前词的embedding，Segment Embedding表示当前词所在句子的index embedding，Position Embedding表示当前词所在位置的index embedding，其中为了能够同时表示单句子和句子对，多句子需要进行拼接作为单个句子用segment embedding和[SEG]来进行区分；三个embedding进行求和得到输入的向量；

4.4)将上一步中所生成的向量作为输入放进层数为12，维度为768的Transformer模型中；

4.5)利用fine-tuning微调对模型进行修改，取token的输出，作为输入softmax归一化层的输入，从而得到电影标签预测结果的输出。

6.如权利要求5所述的一种基于深度神经网络自动给影视打标签方法，其特征在于：所述步骤5中，采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程：

5.1)通过快速傅立叶变换FFT得到与步骤4所对应的声音数据集的功率谱，然后利用三角窗函数将频谱映射到梅尔标度，计算公式如下：其中f为赫兹频率，设E(b)，0≤b

5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换，每个傅里叶变换都生成一帧，这些连续的帧组合成矩阵构成频谱，最后在将线性的频率轴上变换成梅尔尺度，对在频率轴上分布不均的幅值进行对数缩放，再将其作为音频信号的特征表示；

5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层，窗口大小为

8；

5.4)将上一步的输出放入池化窗口长度为4最大池化层；

5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层，窗口大小为8；

5.6)将上一步的输出放入池化窗口长度为4最大池化层；

5.7)构建多个上述模型，采用共享节点，分别输出深度特征序列；

5.8)由于电影的长度不同，输入的片段个数也就不同，把上述传统三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性，最后输出预测标签值。