1.一种基于商品评论的新情感词提取方法,其特征在于:建立商品评论语料并对其进行预处理:利用分词工具对语料中的每条评论进行分词以及词性、位置标记,并根据依存关系及词性搭配规则提取<主题词,评价词>二元组词对;
对新词进行粗粒度提取:结合相邻词词性及位置、主题词和表情符号位置特征统计旧情感词出现频率;
设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,根据不同特征为候选词设置概率值,进行概率综合计算,选择排序前30%的词作为候选新情感词;
将新情感词候选集合与现有情感词典对比后去重;
根据同位关系匹配方法来发现其他情感词;
将目前已经提取的候选新情感词按照词频从大到小排序,设置阈值,删掉频率小于阈值的词语;
对已经提取的候选词进行细粒度筛选:结合点互信息值和语料频数差来筛选,二者值均为0时则删除,否则保留该新情感词;
其中,结合相邻词词性及位置、主题词和表情符号位置特征统计旧情感词出现频率;设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,根据不同特征为候选词设置概率值,进行概率综合计算,选择排序前30%的词作为候选新情感词,包括:利用标注好词性和位置信息的评论作为数据集进行训练,统计情感词出现在不同词性词语周围4个字符以内的频率;利用提取的<主题词,评价词>二元组作为数据集进行训练,统计评价词出现在主题词周围4个字符以内位置的频率;利用标注好表情符号位置信息的评论作为数据集进行训练,统计情感词出现在表情符号周围4个字符以内的频率;
设置长度为4个字符的滑动窗口来获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,并加入候选词集合;
根据不同特征,依据不同特征的出现频率所占比例为每个词语分别设置概率值;
对候选词集合中的每个词语的概率值进行综合计算,并按照从大到小排序,选择前
30%的词语加入新情感词候选集合;
并且,根据同位关系匹配方法来发现其他情感词,包括:
利用语法树来为情感词匹配具有同等地位的新词,从而发现其他的新情感词。
2.根据权利要求1所述的新情感词提取方法,其特征在于:所述根据同位关系匹配方法来发现其他情感词,包括:对评论语句构建语法树,以语法树为特征,利用SVM(支持向量机)来训练,从而自动获取评论文本对应语法树的结构化信息;
再通过计算两棵语法树T1和T2中相同子树的数目来衡量匹配度;
若该新词所在的评论语句与某情感词的语句之间的匹配度达到阈值,则将该新词加入新情感词候选集合。