欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020102508428
申请人: 安徽理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种中文微博话题公众情感预测方法,其特征在于,包括如下步骤:步骤1:文本预处理:将待分析文本进行特殊符号过滤,根据标点符号进行断句,划分为复句与分句,并进行分词;

步骤2:扩展基础情感词典:使用点互信息将语料库中不存在于基础情感词典中的新情感词加入基础情感词典中,拓宽使用范围;

步骤3:构建静态情感分类模型:以扩展后的基础情感词典作为工具,设定规则,由词语对到句子再到段落的顺序计算每段文本的情感值,构建静态情感分类模型;具体包括:(3.1)在对文本进行情感分析采用基于扩展情感词典的方法,将每句话所包含的情感词在情感词典中的权值作为该句子的初始情感值;

(3.2)根据句子中情感词修饰词的不同,给不同修饰词类型设定不同的权值,并将每句话的初始情感值乘以对应的权值;

(3.2.1)程度副词会影响语句情感的表达程度,总结常见的程度副词,并将其划分为四个等级,定义每个等级的权值作为程度副词表,根据句中情感词对应的程度副词,将情感值乘以对应的权值;

(3.2.2)否定副词会改变语句情感的极性,汇总常见的否定副词并统一将其权值定义为‑1,根据语句情感词是否存在否定副词修饰的情况,乘以相应权值;

(3.3)感叹句会增强语句情感的表达程度,反问句会改变情感表达的极性;根据标点符号划分句子类型;根据不同的句子类型,设定不同权值,然后将当前获得的情感值乘以对应的权值;

(3.4)将文本中每句话的情感值进行累加获得整个文本的情感状态;

步骤4:基于条件随机场进行情感动态传播预测:使用条件随机场进行建模,构建微博传播的路径,对下一传播节点的情感倾向进行概率预测,具体包括:S4.1、对微博传播的路径进行建模,符合条件随机场模型;输入微博文本d与参与转发用户的属性序列u,获取情感状态输出的条件概率公式书写为:S4.2、对影响下一节点情感的特征进行定义,包括微博本体客观情感倾向,用户个人信息、用户历史行为信息以及用户间交互信息,并将公式重写为:S4.3、模型训练,估计参数。

2.根据权利要求1所述的一种中文微博话题公众情感预测方法,其特征在于,包括如下步骤:步骤1.1:对输入的非结构化文本按照固定格式处理:将获取到的非结构化文本去除非文本部分,同时去除停用词以及文本中提及的用户名,所述用户名以@符号作为起始标志,从而获取纯文本用于下一步处理;

步骤1.2:根据“。”、“?”、“!”和“……”标点符号将文本进行断句,作为复句,根据“,”、“、”、“;”小标点断句作为分句;

步骤1.3:对处理后的纯文本进行分词,并进行词性标注;按照词性将分词得到的助词、介词、拟声词、量词、数词进行过滤。

3.根据权利要求1所述的一种中文微博话题公众情感预测方法,其特征在于,包括如下步骤:步骤2.1:将词性标注为形容词、副词、名词以及动词且不存在于基础情感词典中的词语作为候选情感词;

步骤2.2:使用统计的方法,在语料库中分别筛选出现频率排名前十的褒义词和贬义词,并获取所述出现频率排名前十的褒义词和贬义词的同义词,作为基准词;

步骤2.3:依次计算候选情感词与基准词的点互信息值,并按照结果,加入到基础情感词典中相应的位置;

步骤2.4:每个候选情感词与基准词的互信息计算公式为:

其中,N表示语料库中的文档总数,Pword代表褒义词,Nword代表贬义词,df(word)表示语料库中词语word的文档频次,df(word&Pword)表示两个词语在语料库中共同出现的文档频次。

4.根据权利要求1中所述的一种中文微博话题公众情感预测方法,其特征在于,包括如下步骤:步骤3.1:根据每句话中的情感词的情感值作为句子的初始情感值;

步骤3.2:计算词语对的情感值:情感词若由程度副词修饰则将初始情感值乘以对应的权值,若由否定副词修饰则乘以负1改变情感极性;

步骤3.3:计算句子的情感值:根据不同的句型,将已得到的词语对的情感值乘以对应的权值;

步骤3.4:将整个文本中每个句子的情感值进行累加,得到整个文本的情感倾向。