知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种从视频字幕中提取概念词的方法

￥46300

专利号： 2019102780941

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种从视频字幕中提取概念词的方法，其特征在于，包括如下步骤：s1.对字幕文本进行分词处理，并删除标点符号；

s2.对分词后的字幕文本进行处理，获得基于条件随机场的半监督学习框架所需的若干个特征，将各个特征的组合转变成特征向量；

其中，对分词后的字幕文本进行处理的过程如下：

s2.1.对分词后的字幕文本进行停止词和词性标注；

s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征；

s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度；

s2.4.对分词后的部分字幕文本进行概念词标记；其中，有概念词标记的字幕文本加入已标记样本集作为训练集，没有概念词标记的字幕文本加入未标记样本集；

s3.根据训练集对基于条件随机场的半监督学习框架进行训练，得到概念词预测模型，并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果；

其中，基于条件随机场的半监督学习框架进行训练的具体过程如下：s3.1.使用训练集对条件随机场模型进行训练，得到初始的概念词预测模型；

s3.2.计算未标记样本集中的未标记样本和训练集的相似度；

选取和训练集最相似的一组未标记样本，然后将该组未标记样本通过概念词预测模型转变为已标记样本后，添加到训练集中，作为更新后的训练集；

s3.3.利用更新后的训练集对条件随机场算法进行训练，得到更新后的概念词预测模型；

s3.4.重复执行步骤s3.2和步骤s3.3，对模型进行迭代训练，直到所有字幕文本均被标记，并得到最终的概念词预测模型。

2.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s1中，使用开源的NLTK分词包对字幕文本进行分词处理，并删除标点符号。

3.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s2.1具体为：s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词，目标单词的前一个词是否是停用词，目标单词的后一个词是否是停用词，作为目标单词的停止词特征；

s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性，标记目标单词的前一个单词的词性，标记目标单词的后一个单词的词性，作为目标单词的词性特征。

4.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s2.2具体为：s2.2.1.计算目标单词与前一个词的共现特征，即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积，并对结果取以10为底的对数；

s2.2.2.计算目标单词与后一个词的共现特征，即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积，并对结果取以10为底的对数；

s2.2.3.计算目标单词与前、后两个词的共现特征，即：目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积，并对结果取以10为底的对数。

5.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s2.3具体为：s2.3.1.使用预训练的word2vec模型获得目标单词的词向量；

s2.3.2.使用余弦距离根据所述词向量计算目标单词与前一个单词的语义相似度；

s2.3.3.使用余弦距离根据所述词向量计算目标单词与后一个单词的语义相似度。

6.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s2.4具体为：选取分词后的10％-20％的字幕文本作为训练集，由两位相关领域的专家标注者对训练集中的概念进行标注，只有当两位专家取得一致意见时，一个短语才会被标注成概念。

7.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，所述步骤s3.2中，未标记样本和训练集的相似度计算过程如下：s3.2.1.使用预训练的word2vec模型获得目标单词的词向量；

s3.2.2.使用超参数a除以a和句子中的所述目标单词词频估计的和，作为句子中每个单词的词向量的权重；将句子内所有单词的词向量的加权算数平均值作为句子的向量表示；

使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离，其中，未标记样本和训练集的相似度距离越小，则表明未标记样本与训练集的相似度越高。

推荐专利

一种基于概念树的高校课程体系的增量式概念计算方法

发明专利

面议

一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

发明专利

面议

一种基于Wikipedia概念向量的英文词语相关度计算方法和装置

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们