欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101557959
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于评论的情感分析方法,其特征在于:获取实时的评论数据,将实时的评论数据输入到训练好的情感分类模型中,得到情感分类结果,根据分类结果确定游客的喜爱偏好,并将喜爱偏好数据存入系统的存储介质中;

所述情感分类模型的构建过程包括:采用分布式爬虫算法获取评论数据;根据采集的数据与自有语料库构建情感词典;将获取的数据进行实时解析与预处理,得到预处理的数据;利用情感词典对预处理后的数据进行情感倾向性分类,得到训练好的情感分类模型;构建情感词典的步骤包括:步骤1:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;

步骤2:将常用的颜文字和Emoji进行混合,根据按键值将混合的颜文字和Emoji构造成词典,得到颜文字词典;

步骤3:采用颜文字词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;

步骤4:对汉字集进行去停用词、分词处理,计算处理后分词集的tf‑idf值,根据tf‑idf值对分词集进行筛选,得到词汇集C;

步骤5:B与C取交集,得到种子情感词集S,将种子情感词集加入情感词典Sent‑D中;C与B进行取差集运算,得到候选词集CL;

步骤6:采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作,并进行去停用词和分词操作;并对得到的词集进行词向量化处理,得到词向量集M‑V;

步骤7:利用词向量集M‑V计算CLi与Sj调整后的余弦相似性,按相似性的大小进行降序排列;CLi表示候选词集的子集,Sj表示种子情感词集的子集;

步骤8:从排列中选择相似性最高的5个种子情感词,若5个种子情感词的情感极性一致,则直接求CLi情感词极性及强度pa,若5个种子情感词的情感极性不一致,则取种子情感词极性数较多的候选词集,计算候选词集CLi情感词极性及强度pa;

步骤9:结合pagerank算法计算CLi情感词极性及强度pb;

步骤10:利用pa与pb加权计算后取得最后的CLi情感词极性及强度p;

步骤11:将候选词的词极性以及计算得到的情感强度加入情感词典Sent‑D中;

其中,Emoji表示情感含义符号数据,tf‑idf表示评估一个单词在该语料中的重要程度,Sent‑D表示情感词典。

2.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感强度计算方法步骤包括:根据5个种子情感词的情感极性求情感强度;

若情感极性一致,则求得候选词CLi情感词强度为:

若情感极性不一致,则取种子情感词极性数较多的候选词集,计算情感词强度:

其中,n为种子情感词极性数较多方的词个数, 表示种子情感词Sj的情感强度。

3.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述pagerank算法包括:确定种子集S在情感词汇本体中对应的情感极性矩阵Y;S的情感强度为:X=(x1,x2,...,xn), 根据S情感词的情感极性及强度计算S的情感极性向量为:Z=X×Y;

定义图G=,|N|=|S|+|W|,矩阵M的结点间的无向图链接关系为|W|×|N|;根据调整后余弦相似度将M分解为|W|×|S|的矩阵U和|W|×|W|的子矩阵V;将种子词集S的正向词置前,负向词置后;对U、V和Z作归一化处理,并进行迭代计算,得到候选词情感强度及极性向量P;

其中,oi为种子情感词在情感词汇本体库中对应的情感强度,N为结点集合,|S|为种子情感词数,|W|为CL词数。

4.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感极性包括:正面情感极性及强度用0~10之间的值表示,负面情感词及强度用‑10~0之间的值表示。

5.根据权利要求1所述的一种基于评论的情感分析方法,其特征在于,所述情感分类模型包括:步骤1:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;

步骤2:将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;

步骤3:采用情感倾向计算公式计算待分类评论的情感倾向St,并根据情感倾向进行分类。

6.根据权利要求5所述的一种基于评论的情感分析方法,其特征在于,所述情感倾向计算公式计为:其中,ti表示情感词极性,pi表示情感词强度,St表示该评论的倾向。

7.一种基于评论的情感分析系统,该系统用于执行权利要求1~6所述的任意一种基于评论的情感分析方法,其特征在于,所述系统包括:数据采集模块、数据清洗模块、数据分析模块以及数据可视化模块;

所述数据采集模块采用分布式爬虫算法从互联网中实时的爬取客户评论数据,并将数据发送给数据清洗模块;

所述数据清洗模块用于将数据采集模块发送的数据进行实时解析与预处理,得到解析后半结构化的评论数据,并将解评论数据发送给数据分析模块;

所述数据分析模块包括情感词典自动构建模块和情感分类模块;

所述情感词典自动构建模块用于构建情感词典,将评论数据输入情感词典构建模块,并结合自有语料库共同利用gensim库的word2vec模型训练出词向量,利用这些向量计算后可得到情感词典;

所述情感分类模块将情感词典的数据进行情感正负向性分类,并将分类结果发送给数据可视化模块;

所述数据可视化模块用于将分类结果进行可视化展现。

8.根据权利要求7所述的一种基于评论的情感分析系统,其特征在于,所述情感词典自动构建模块中构建过程包括:根据情感词汇本体库筛选正负情感极性以及情感强度,得到基础情感词集B;将常用的颜文字和Emoji进行去重处理,得到颜文字词典;采用颜文词典将旅行评论领域数据内的特殊表情符还原为对应的汉字,得到汉字集;对汉字集进行去停用词、分词处理,并计算处理后的分词集的tf‑idf值,根据tf‑idf值进行筛选得到词汇集C;将B与C取交集,得到词集S,将S加入情感词典Sent‑D;C与B进行差集运算得到候选词集CL;采用颜文词典对新闻数据与旅行评论的混合数据进行表情符号还原操作,对操作后得到的数据进行去停用词和分词处理;并对得到的词集进行词向量化操作得到词向量集M‑V;利用M‑V计算CLi与Sj的调整后的余弦相似性,并按相似度进行降序排列;从S中取出该候选词相似性最高的5个种子情感词,若其情感极性一致则取其情感强度和的均值作为该候选词情感强度;当其情感极性不一致时选择其多数情感倾向作为该候选词的极性,情感强度计算方式不变;利用pagerank算法思想计算另一组CLi的情感极性;将上述得到的两组情感极性进行加权求平均值,得到最后的情感极性及强度;将该候选词的词极性及强度加入情感词典Sent‑D;

其中,Emoji表示情感含义符号数据,tf‑idf表示评估一个单词在该语料中的重要程度,Sent‑D表示情感词典,CL表示候选词集。

9.根据权利要求7所述的一种基于评论的情感分析系统,其特征在于,所述情感分类模块进行分类的过程包括:对待分类的评论进行颜文字替换、去停用以及分词操作,得到待分类词列表LP;将待分类词列表LP分为i个待分类词子列表,并判断待分类词子列表是否存在于情感词典中;若存在,将待分类词子列表添加到情感列表LS中;若不存在,则进行下一步;采用情感倾向计算公式计算待分类评论的情感倾向St,并更具情感倾向进行分类。