欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201811082555X
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,包括如下步骤:S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;

S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;步骤S102包括:S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);

S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的e e词向量为ej,其中,ej=Wvj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,W 表e d×N d×N示所述目标文本的词向量矩阵,W∈R ,R 表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;

S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中, 为结合符号,结合的方式包括拼接或相乘;

S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt‑2,rt‑1,rt};

S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分Score(U);步骤S103包括:p

S103 1 :计算 所述目标 用户的积极 倾向得分 Sco re(U ) ,其中 ,表示目标用户的历史微博文本中的积极倾

向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;

n

S103 2 :计算 所述目标 用户的 消极 倾向得分 Scor e(U ) ,其中 ,Freq(p)表示目标用户的历史微博文本中的积

极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;

S1033:计算所述目标用户的用户情感倾向得分Score(U) ,其中,S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性;步骤S104包括:S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。

2.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。

3.如权利要求2所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,t的取值为15。

4.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。

5.如权利要求1或4所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;

当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中, Freq(wi)=|α·Pos(wi)‑β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq(wi)表示情感词wi在数据文档中出现的频数,Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数,γ为情感倾向得分阈值控制参数;

当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)‑β·Neg(wi)],Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。

6.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述类别分类模型为长短期记忆网络,训练的方法包括:(i2) (i2)

获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为(x ,y ),i2表示(i2) (i2)m个训练样本中的第i2个训练样本,x 为长短期记忆网络的输入,y 为第i2个训练样本(i2) (i2)的分类类别,则将第i2个训练样本分类为类别j2的概率为p(y =j2|x ;θ),k表示可分类的类别数, 表示将第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为 通过添加参数正则化项 来修改代价函数,惩罚过大的参数值,使代价函数变

为 其中,λ为正则化项系数,λ>0,n为类

别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则 基于求导后的代价函数loss使用梯度下降法来训练长短期记忆网络的模型参数θ。