欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019106558141
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的文本情感分析方法,其特征在于按照以下步骤进行:Step1.准备电影评论数据集,准备停用词词典;

Step2.对数据集进行预处理,使用结巴分词对数据集进行分词,将句子拆分为词语集合;模型的输入需要为数据元组,因此需要将词语组合转化为词向量,用融合情感信息的Word2Vec‑PS模型训练词向量,将词语组合转化为数值向量,同时降低维度得到词向量语义信息;

Step3.构建循环神经网络模型,将训练好的词向量按不同时刻输入到循环神经网络模型中,提高电影评论文本情感分类的准确性;

Step4.用数据集训练得到融合情感信息的词向量,将词向量输入到构建的循环神经网络模型进行模型训练,训练好模型后用测试集对模型进行验证,模型的输出结果设置为好,差2个类别,验证结果准确度可观;

所述步骤2中用融合情感信息的Word2Vec‑PS模型训练词向量方法如下:选用Word2Vec中的CBOW模型进行改进,提出融合情感信息的词向量模型,CBOW模型包括输入层、投影层和输出层三部分,在已知当前词wt‑2、wt‑1、wt+1、wt+2的前提下预测wt,神经网络的语言模型的目标函数L取如下对数似然函数:其中:context(w)由词w前后各c个词组成,c为自然数,D为数据集,w∈D;融合事先收集数据中的能反应情感的标点符号组合及标点符号连用信息来得到Word2Vec‑PS模型,模型目标函数如下:其中:context(w)由词w前后各c个词组成,puncs(w)为事先收集的数据中的标点符号组合及标点符号连用信息;

输入层中context(w)中2c个词的词向量

m

V(context(w)1),V(context(w)2),…,V(context(w)2c)∈R,投影层将输入层的2c个向量作求和累加基础上融合情感信息的向量如下:其中:xw为融合情感信息的向量,v(puns(w))为puncs(w)的向量表示;

在模型输出层中,语料库不仅包含了所有句子中出现的词,并且将句子中出现的能反应情感的标点符号组合及连用信息作为频繁词向量化,这样融合情感信息的概率模型如下:其中:模型的输出层对应一个以数据集中出现过的词及能反应情感的标点符号组合及连用信息当做叶子结点,以对应词在数据中出现的次数当权值构造的Huffman树,在Huffman树中为每一个非叶子结点的左右孩子指定了一个类别,约定将Huffman编码为1的节点定义为正类,编码为0的节点定义为负类,这样对于数据D中的任意词w,Huffman树中必w w w然存在且唯一存在一条从根节点到词w的路径p ;路径p上存在l‑1个分支,每个分支对应的二分类就产生了一个概率,将这个概率连乘就是所需的p(w|context(w)+puncs(w)),xww w w为融合情感信息的向量,p为从根节点出发到达w对应叶子结点的路径,l为路径p中包含w w结点的个数, 表示路径p中第j个结点对应的编码, 表示路径p中第j‑1个非叶子结点对应的向量。

2.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤

1中电影评论数据集使用IMDB的大型电影评论数据集,IMDB数据集包含了50000条从IMDB标注获得的二分类评论,这些评论在训练过程中将会被1:1分成训练集和测试集;停用词词典使用中科院计算所中文自然语言处理开放平台发布的包含1208个停用词的中文停用词典。

3.按照权利要求1所述一种基于深度学习的文本情感分析方法,其特征在于:所述步骤

3中构建循环神经网络模型方法如下:

<0>

定义初始激活量a 为零向量开始计算,公式如下:

<t> <t‑1> <t>

a =g1(Waaa +Waxx +ba)

其中,Waa为决定激活值即水平联系的权重矩阵,Wax下标的含义:x表示Wax要乘以一个x类型的量,a表示Wax是用来计算某个a类型的量,ba是偏置值,然后计算输出 公式如下:其中,Wya为计算输出结果的权重矩阵,by为偏置值,输出y的激活函数由输出的类型决定:(1)如果输出y是一个二分问题,选用sigmoid作为激活函数;(2)如果是k类别分类问题,选用softmax作为激活函数,对于情感文本分析来说,这里的g2是sigmoid激活函数,关于某个时间步t上预测值的损失函数如下:<t>

y 表示样本的输出, 表示样本输出的概率,整个序列的损失函数如下:其中,Ty为输出序列长度,反向传播算法按照前向传播相反的方向进行导数计算,来对参数进行更新,最终训练出准确度较高的模型。