欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100873412
申请人: 安徽理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于商品评论的新情感词提取方法,其特征在于:建立商品评论语料并对其进行预处理:利用分词工具对语料中的每条评论进行分词以及词性、位置标记,并根据依存关系及词性搭配规则提取<主题词,评价词>二元组词对;

对新词进行粗粒度提取:结合相邻词词性及位置、主题词和表情符号位置特征统计旧情感词出现频率;

设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,根据不同特征为候选词设置概率值,进行概率综合计算,选择排序前30%的词作为候选新情感词;

将新情感词候选集合与现有情感词典对比后去重;

根据同位关系匹配方法来发现其他情感词;

将目前已经提取的候选新情感词按照词频从大到小排序,设置阈值,删掉频率小于阈值的词语;

对已经提取的候选词进行细粒度筛选:结合点互信息值和语料频数差来筛选,二者值均为0时则删除,否则保留该新情感词;

其中,结合相邻词词性及位置、主题词和表情符号位置特征统计旧情感词出现频率;设置k=4的滑动窗口获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,根据不同特征为候选词设置概率值,进行概率综合计算,选择排序前30%的词作为候选新情感词,包括:利用标注好词性和位置信息的评论作为数据集进行训练,统计情感词出现在不同词性词语周围4个字符以内的频率;利用提取的<主题词,评价词>二元组作为数据集进行训练,统计评价词出现在主题词周围4个字符以内位置的频率;利用标注好表情符号位置信息的评论作为数据集进行训练,统计情感词出现在表情符号周围4个字符以内的频率;

设置长度为4个字符的滑动窗口来获取不同词性词语、主题词以及表情符号周围4个字符以内的词语,并加入候选词集合;

根据不同特征,依据不同特征的出现频率所占比例为每个词语分别设置概率值;

对候选词集合中的每个词语的概率值进行综合计算,并按照从大到小排序,选择前

30%的词语加入新情感词候选集合;

并且,根据同位关系匹配方法来发现其他情感词,包括:

利用语法树来为情感词匹配具有同等地位的新词,从而发现其他的新情感词。

2.根据权利要求1所述的新情感词提取方法,其特征在于:所述根据同位关系匹配方法来发现其他情感词,包括:对评论语句构建语法树,以语法树为特征,利用SVM(支持向量机)来训练,从而自动获取评论文本对应语法树的结构化信息;

再通过计算两棵语法树T1和T2中相同子树的数目来衡量匹配度;

若该新词所在的评论语句与某情感词的语句之间的匹配度达到阈值,则将该新词加入新情感词候选集合。