1.一种基于语义本体库中文文本情感分析方法,其特征在于包括如下步骤:步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;
步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系;其中,情感信息包含词的情感强度、情感极性和情感词词性;
步骤3、情感计算和情感倾向判断;
根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果;
步骤1所述情感本体库构建,具体步骤如下:
步骤1-1.使用网络机构中现有权威的情感本体库,去掉重复词之后作为原始本体库;
步骤1-2.从知网中下载同义词林,将原始本体库进行同义扩充;
步骤1-3.为了得到丰富的情感本体库,引入word2vec工具,该工具能根据输入样本泛化推理得到和情感词语义相似的词;首先,将评论数据通过word2vec训练,得到向量空间,将本体库内情感词输入与样本空间中的词做相似计算,取出相似排名靠前的5个相似词;使用SO_PMI公式分别计算本体库情感词和筛选出的相似词的相关度,筛选得到更为丰富的情感本体库;
SO_PMI定义了点互信息量的概念,用来计算两个词之间的语义相关性:P(w1&w2)表示词w1和w2同时出现的概率,C(w1&w2)表示词w1和w2同时出现的次数,N代表频率;P(w1)表示词w1出现的概率,P(w2)表示词w2出现的概率;C(w1)表示词w1出现的次数,C(w2)表示词w2出现的次数;
对于未知情感的候选词语cw和情感强度i的基准情感词语集合BSWi;基于点互信息的语义倾向值SO_PMI(cw,BSWi)为候选词语cw和BSWi中所有的基准情感词语的点互信息之和:最后,得到候选词语cw的情感倾向为:
Pwords表示正向种子词集,Nwords表示负向种子词集;
步骤2情感词匹配和情感词关系预处理,具体步骤如下:
步骤2-1.利用分词工具和自定义用户词典进行分词,然后结合哈工大句法分析平台,将评论转换为tri-gram形式,组成语义依存关系队列;
步骤2-2.语义依存关系队列包含每个词的位置、词性标注以及前词后词的位置关系,能充分定位情感词的位置以及该情感词所修饰的名词;
2-2-1.通过匹配情感本体库,定位情感词的情感初始极性以及程度修饰权值;
2-2-2.得到情感词的位置信息,将情感词抽取出来构建情感词的特征列表;特征列表包含情感词的位置、情感极性和权值;
步骤3所述的情感计算和情感倾向判断,具体如下:
步骤3-1.针对步骤2-1得到语义依存关系队列,构建本体库中匹配情感词信息,使用短语情感倾向评估法来近似计算评论的情感倾向;
步骤3-2.采用SVM分类器为后续未知情感极性评论进行分类;
对语料库中已标记过的评论进行训练,80%的评论作为训练集,20%的评论作为测试集;训练集的具体处理如下:首先通过分词,删除停用词;
其次从步骤2-2中匹配情感词,并赋予情感词的权重;
然后将训练集中每条评论转换成特征向量,训练SVM分类器,再进行分类,结合上文规则判断结果得到最终评论情感倾向。