知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

电影评论情感分析方法及装置

￥66200

专利号： 2019101225607

申请人：东北林业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.电影评论情感分析方法，其特征在于，包括以下步骤：

(1)爬取待分析的电影评论语料，并利用扩充结巴分词词典对爬取的语料进行分词，并进行去停用词预处理，得到预处理之后的语料；针对每个句子生成预处理之后的词语集合wordlist[j]，所有句子的预料集合为wordlist；同时，按照分词结果对句子进行句法分析；

(2)对于句子中的每一个词Wi∈wordlist[j]，查询特征词词典featureDict，判断Wi是否属于影评属性特征词词典featureDict中的词；若是，跳向步骤(3)；否则，另j+1；

(3)基于句法分析，判断Wi的父节点是否是“NN”或“NR”或“PN”，如果是，遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点；否则，返回步骤(2)；

NN为常用名词，NR为固有名词，PN为代词，VA为表语形容词；

(4)获取句子中距离Wi最近的“VA”的节点对应的词，作为情感词p；

(5)遍历W-SVM情感词典和SO-VEC情感词典，若p属于褒义词情感词典，词语情感值VWi＝

1；若p属于贬义词情感词典，VWi＝-1；

所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典，所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词；

(6)判断Wi与p之间的词mk是否属于否定词词典，并记录mk的数量λ，同时更新词语情感值VWi＝VWi*(-1)λ；最终根据词语情感值VWi确定影评细粒度情感；

所述的否定词词典为否定词构成的词典。

2.根据权利要求1所述的电影评论情感分析方法，其特征在于，步骤(1)中所述的扩充结巴分词词典的构建过程如下：构建扩充结巴分词词典：在结巴分词的词库中添加以下词库内容：a、搜狗细胞词库的内容；

b、使用NLPIR平台发现新词功能处理语料后得到的新词；

将添加内容后的结巴分词词库作为扩充结巴分词词典。

3.根据权利要求2所述的电影评论情感分析方法，其特征在于，步骤(2)中所述的特征词词典featureDict的构建过程如下：步骤1.1、爬取语料，利用扩充的结巴分词词典对爬取的语料进行分词，并进行去停用词预处理，得到预处理之后的语料；

将预处理之后的语料保存为word2vec模型能够识别的文件格式并对word2vec模型进行训练，得到word2vec模型结构；

步骤1.2、对预处理之后的语料进行TF-IDF统计，基于统计结果抽取电影评价的x1个属性种子词；

步骤1.3、构建影评属性特征词词典featureDict：将电影评价的x1个属性种子词输入word2vec模型，得到扩展词集合，对扩展词集合进行人工筛选，剔除非影评词，得到影评属性特征词词典featureDict。

4.根据权利要求3所述的电影评论情感分析方法，其特征在于，步骤1.1所述对word2vec模型进行训练的具体过程如下：

加载python第三方gensim模块；

将保存为word2vec模型能够识别的文件格式的文件读入word2vec模型；

输入如下命令进行词向量模型的训练：

model＝word2vec.Word2Vec(sentences，window＝5，size＝200)其中，sentences为输入的语料库，window为模型的词汇窗口大小参数，size为模型中词向量的维数。

5.根据权利要求3或4所述的电影评论情感分析方法，其特征在于，步骤(5)所述W-SVM情感词典的构建过程如下：步骤2.1、构建词典：

构建基础情感词典：将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条；

筛选构造的基础情感词典，去除中性词；

步骤2.2、构建W-SVM情感词典：

抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词，记为SVM情感种子词，包括x2个褒义情感种子词、x3个贬义情感种子词；

将x1个属性种子词和SVM情感种子词分别输入word2vec模型，提取具有最接近的相似度的前m个词作为SVM候选词；

同时基于TF-IDF统计结果，根据词频挑选若干个基准褒义词和若干个基准贬义词；将基准词的词向量作为训练集进行SVM分类器的训练，利用训练好的SVM分类器模型对SVM候选词的褒贬分类，对分类的结果再进行二次人工矫正；

将经过人工矫正后的褒义词和贬义词加入到基础情感词典中，得到电影评论的W-SVM情感词典。

6.根据权利要求5所述的电影评论情感分析方法，其特征在于，步骤(5)所述SO-VEC情感词典的构建过程如下：构建SO-VEC情感词典：

对预处理之后的语料进行词性标注工作，提取词性为形容词、成语、动词、语气词以及非语素词的词语，将提取的词语集合记为f-word；

对f-word中的词语输入word2vec模型，提取具有最接近的相似度的前n个词，作为VEC候选词，集合记为F-word；

将F-word中的词语与基础情感词典做交集，并对交集中的词进行词频统计；F-word中的词语与基础情感词典没有相交的部分的集合记为new，对new中的词语进行人工筛选，剔除没有意义的词语，剩下的词语集合记为word1；

从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词，记为VEC褒义情感种子词，集合记为pword；

从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词，记为VEC贬义情感种子词，集合记为nword；

pword和nword构成VEC情感种子词集合；

采用SO-PMI算法对word1中的每个词语进行计算，若SO-PMI大于0则为褒义词，小于0则为贬义词，等于0的词语即中性词，不作任何处理；

最后对结果展开手动纠正，将纠正后的褒义词和贬义词加入到基础情感词典中，得到SO-VEC情感词典。

7.根据权利要求6所述电影评论情感分析方法，其特征在于，所述采用SO-PMI算法对word1中的每个词语进行计算的过程如下：word1中的第i1个词语，采用如下公式计算SO-PMI值，公式中的word1i1为集合word1中的词语，pwordj1为集合pword中的词语，nwordj2为集合nword中的词语；count(word1i1,pwordj1)表示针对当前计算的词语word1i与pword中的某个词语pwordj1同时出现在一个句子中的次数，count(word1i1,nwordj2)针对当前计算的词语word1i1与nword中的某个词语nwordj2同时出现在一个句子中的次数； q表示变量。

8.根据权利要求7所述电影评论情感分析方法，其特征在于，所述n1＝n2。

9.根据权利要求1所述电影评论情感分析方法，其特征在于，步骤(6)所述否定词典中的否定词包括：不、非、无、未、不曾、不能、不怎么、不怎么样、没、没法、没有、请勿、不用、无须、并非、毫无、决不、休想、不是、永不、失去、未尝、未曾、毋、莫、无法、不会、从不、从未、从未有过、尚未、并未、尚无、从来不、从没、绝非、切莫、绝不、毫不、不必、忌、否、弗、木有、表、不足、木油、不要、未必、不太、不算、不可、不再、有待、尚待。

10.电影评论情感分析装置，其特征在于，所述装置用于执行权利要求1至9之一所述的电影评论情感分析方法。