1.一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,包括以下步骤:S1,首先计算机根据网络公开的情感词典,知网HowNet情感词典和台湾大学简体中文情感词典相结合构建所需的基础词典,并对两个词典中的重复词和偏义词进行清理和筛选;
S2,计算机获取社交平台中文预料,对中文语料进行数据清理,并根据基础情感词典对特定领域的情感词进行扩充;
S3,在Word2Vec词向量的基础上,综合词频、词性和相似度计算,获取领域新词来扩展基础词典;
S4,通过人工对照8种中文复杂句式结构进行分析,总结归纳出基于情感词组情感极性的通用句式模型,将输入的句子划分为不同的模型来判断句子情感极性;
S5,计算机采用朴素贝叶斯算法分类器,综合词典和句式模型得出句子极性结果;
步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下:输入:特定领域评论数据集;
输出:完整的情感词典;
在步骤S2的基础上对数据做如下操作:
第一步:进行词性统计,选出名词、动词、形容词和副词;
第二步:在所选词性统计基础上进行词频统计,按照词频的高低进行排序,并人工选出情感倾向比较明显的正面种子词和负面种子词;
第三步:通过Word2Vec训练已清理好的语料数据集,得到语料中单词的词向量;
第四步:通过词向量计算单词与正、负面种子词之间的余弦值,并按照高低排序选取n个近义词作为候选词;
第五步:将特定领域确定情感倾向的候选词与基础情感词典合并,得到完整的情感词典;
所述Word2Vec采用一个三层的神经网络,输入层‑投影层‑输出层,CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和,再根据建立对数线性分类器以及上下词汇的训练结果,CBOW就能够对中心词正确地进行预测,CBOW利用目标词w前后各c个词去预测前当词,令(Context(w),w)作为训练样本,Context(w)表示w前后各c个词语组成;
a、输入层:当前词w的前后的2c个词语向量是输入,令m作为整个句子所包含词的数量,mV(Context(w)1),V(Context(w)2)...V(Context(w)2c)∈R;
b、投影层:向量Xw为该2c个词语向量的累加和,也就是c、输出层:一棵Huffman树,树的叶子节点就是训练文本中所包含的词汇,权值为每个词汇在训练文本中出现的频数;
所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度,找到近义词组,余弦相似度算法为:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似;
二维空间中余弦函数的公式:
x1、x2分别表示两个向量的横坐标,y1、y2分别表示两个向量的纵坐标,多维空间余弦函数的公式为:xi、yi表示多维空间中多个向量的横纵坐标值;
本文根据计算得到的余弦相似度高低排序,选取与每个情感种子词最相近的10个近义词组构成候选词集;
所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤:利用Word2Vec对语料集进行词向量训练,按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取,程度副词来源于《知网》情感分析用词语集,词典内数据格式有两列,一列是程度副词,另一列是程度值;一方面构造情感词组,本研究中定义情感词组为一个个短语,即由否定词、程度副词和情感词构成,结构如下:P=Wn*N+Wd+Ws (1)
其中,P代表短语即情感词组;Wn表示否定词,N表示否定词个数;Wd表示程度副词,Ws表示情感词;
另一方面基于情感词组构造特征词序列来进行情感倾向的判断:设定第一类,第二类,第三类关联词分别为W1,W2,W3,复杂句式判断规则总结如下:W1+P+Wpo/Wne+其他 (2)
W1+P+Wpo/Wne+? (3)
W2/W3+P+Wpo/Wne+其他 (4)正向词Wpo极性值+1,负向词Wne极性值‑1,偶数否定词极性乘以+1,奇数否定词极性乘以‑1;P的极性值Sp由式(1)计算;
句式匹配过程如下:
输入:情感词典,模型关联词典,否定词典,数据文本;
输出:文本评论的情感类别;
第一步:将分词文本与3类词典进行单词匹配,将短文本中情感词、程度副词、否定词找出构造情感短语词组,结合关联词构造句式模型;
第二步:遍历特征词序列,如果前句中发现第一类关联词W1,继续向后遍历(1)若后面没有其他关联词,根据规则2,5;
(2)若后半句无其他关联词有“?”,判定为反问句,根据式3判断第三步:遍历特征词序列,如果发现W2:
遍历后句,若有关联词,根据规则4,5判定整句情感倾向;
第四步:遍历特征词序列,若发现W3,前后表述一致,按照规则4,5判定整句情感倾向。
2.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S1计算构建基础情感词典的步骤具体为:基础情感词典的构建采取知网Hownet词典和台湾大学简体中文情感词典相结合,并将两个词典进行去重,共取得正向情感词3646个,负向情感词9530个,否定词31个。
3.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S2数据清理的步骤包括:(1)剔除html格式代码,清除URL链接;
(2)剔除用户名;
(3)利用结巴分词对文本评论进行分词处理,同时手动加入领域专有名词;
(4)选择常用的停用词表对已分词文本进行去停用词处理;
处理完的文本数据设置为DataFrame数据格式,并将正、负极性的文本加入类别标签,分别用+1和‑1表示。
4.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法,其特征在于,所述步骤S5中关于机器学习算法分类器选择朴素贝叶斯作为分类器。