1.电影评论情感分析方法,其特征在于,包括以下步骤:
(1)爬取待分析的电影评论语料,并利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;针对每个句子生成预处理之后的词语集合wordlist[j],所有句子的语料集合为wordlist;同时,按照分词结果对句子进行句法分析;
(2)对于句子中的每一个词Wi∈wordlist[j],查询特征词词典featureDict,判断Wi是否属于影评属性特征词词典featureDict中的词;若是,跳向步骤(3);否则,另j+1;
(3)基于句法分析,判断Wi的父节点是否是“NN”或“NR”或“PN”,如果是,遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点;否则,返回步骤(2);
NN为常用名词,NR为固有名词,PN为代词,VA为表语形容词;
(4)获取句子中距离Wi最近的“VA”的节点对应的词,作为情感词p;
(5)遍历W-SVM情感词典和SO-VEC情感词典,若p属于褒义词情感词典,词语情感值VWi=
1;若p属于贬义词情感词典,VWi=-1;
所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典,所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词;
所述W-SVM情感词典的构建过程如下:
步骤2.1、构建词典:
构建基础情感词典:将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条;
筛选构造的基础情感词典,去除中性词;
步骤2.2、构建W-SVM情感词典:
抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词,记为SVM情感种子词,包括x2个褒义情感种子词、x3个贬义情感种子词;
将x1个属性种子词和SVM情感种子词分别输入word2vec模型,提取具有最接近的相似度的前m个词作为SVM候选词;
同时基于TF-IDF统计结果,根据词频挑选若干个基准褒义词和若干个基准贬义词;将基准词的词向量作为训练集进行SVM分类器的训练,利用训练好的SVM分类器模型对SVM候选词的褒贬分类,对分类的结果再进行二次人工矫正;
将经过人工矫正后的褒义词和贬义词加入到基础情感词典中,得到电影评论的W-SVM情感词典;
所述SO-VEC情感词典的构建过程如下:
对预处理之后的语料进行词性标注工作,提取词性为形容词、成语、动词、语气词以及非语素词的词语,将提取的词语集合记为f-word;
对f-word中的词语输入word2vec模型,提取具有最接近的相似度的前n个词,作为VEC候选词,集合记为F-word;
将F-word中的词语与基础情感词典做交集,并对交集中的词进行词频统计;F-word中的词语与基础情感词典没有相交的部分的集合记为new,对new中的词语进行人工筛选,剔除没有意义的词语,剩下的词语集合记为word1;
从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词,记为VEC褒义情感种子词,集合记为pword;
从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词,记为VEC贬义情感种子词,集合记为nword;
pword和nword构成VEC情感种子词集合;
采用SO-PMI算法对word1中的每个词语进行计算,若SO-PMI大于0则为褒义词,小于0则为贬义词,等于0的词语即中性词,不作任何处理;
最后对结果展开手动纠正,将纠正后的褒义词和贬义词加入到基础情感词典中,得到SO-VEC情感词典;
(6)判断Wi与p之间的词mk是否属于否定词词典,并记录mk的数量λ,同时更新词语情感λ值VWi=VWi*(-1) ;最终根据词语情感值VWi确定影评细粒度情感;
所述的否定词词典为否定词构成的词典。
2.根据权利要求1所述的电影评论情感分析方法,其特征在于,步骤(1)中所述的扩充结巴分词词典的构建过程如下:构建扩充结巴分词词典:在结巴分词的词库中添加以下词库内容:a、搜狗细胞词库的内容;
b、使用NLPIR平台发现新词功能处理语料后得到的新词;
将添加内容后的结巴分词词库作为扩充结巴分词词典。
3.根据权利要求2所述的电影评论情感分析方法,其特征在于,步骤(2)中所述的特征词词典featureDict的构建过程如下:步骤1.1、爬取语料,利用扩充的结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;
将预处理之后的语料保存为word2vec模型能够识别的文件格式并对word2vec模型进行训练,得到word2vec模型结构;
步骤1.2、对预处理之后的语料进行TF-IDF统计,基于统计结果抽取电影评价的x1个属性种子词;
步骤1.3、构建影评属性特征词词典featureDict:将电影评价的x1个属性种子词输入word2vec模型,得到扩展词集合,对扩展词集合进行人工筛选,剔除非影评词,得到影评属性特征词词典featureDict。
4.根据权利要求3所述的电影评论情感分析方法,其特征在于,步骤1.1所述对word2vec模型进行训练的具体过程如下:
加载python第三方gensim模块;
将保存为word2vec模型能够识别的文件格式的文件读入word2vec模型;
输入如下命令进行词向量模型的训练:
model=word2vec.Word2Vec(sentences,window=5,size=200)其中,sentences为输入的语料库,window为模型的词汇窗口大小参数,size为模型中词向量的维数。
5.根据权利要求4所述电影评论情感分析方法,其特征在于,所述采用SO-PMI算法对word1中的每个词语进行计算的过程如下:word1中的第i1个词语,采用如下公式计算SO-PMI值,公式中的word1i1为集合word1中的词语,pwordj1为集合pword中的词语,nwordj2为集合nword中的词语;count(word1i1,pwordj1)表示针对当前计算的词语word1i与pword中的某个词语pwordj1同时出现在一个句子中的次数,count(word1i1,nwordj2)针对当前计算的词语word1i1与nword中的某个词语nwordj2同时出现在一个句子中的次数; q表示变量。
6.根据权利要求5所述电影评论情感分析方法,其特征在于,所述n1=n2。
7.根据权利要求1所述电影评论情感分析方法,其特征在于,步骤(6)所述否定词典中的否定词包括:不、非、无、未、不曾、不能、不怎么、不怎么样、没、没法、没有、请勿、不用、无须、并非、毫无、决不、休想、不是、永不、失去、未尝、未曾、毋、莫、无法、不会、从不、从未、从未有过、尚未、并未、尚无、从来不、从没、绝非、切莫、绝不、毫不、不必、忌、否、弗、木有、表、不足、木油、不要、未必、不太、不算、不可、不再、有待、尚待。
8.电影评论情感分析装置,其特征在于,所述装置用于执行权利要求1至7之一所述的电影评论情感分析方法。