欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016101511465
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合深层特征和浅层特征的情感分类方法,其特征在于,包括以下步骤:

步骤1:根据准备好的情感文本语料集,人工标记类别,积极情绪的文本语料标签为1,消极情绪的文本语料标签为2,并将情感文本语料集分为训练语料集和测试语料集,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对情感文本语料集进行分词,然后去除语料中的停用词;

步骤2:对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量;得到情感文本的浅层特征向量后采用Doc2vec算法对经过分词、去停用词后的语料进行训练,得到词向量模型和情感文本的深层特征向量;

步骤3:将步骤2中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量,所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量;

步骤4:将步骤3中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型;然后将步骤3中得到的测试语料集的文本特征向量输入SVM,根据已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。

2.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤1采用基于词典逆向最大匹配算法具体为:分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合,统计出权威性的词条语料,采用二级哈希结构存储构造核心词典,选取情感词典作为临时词典加载的语料;分词词典初步构成后,分词系统进入自主学习阶段,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条,统计记录学习情感文本的数量,若大于预定值,则清空临时词典;采用更新后的核心词典中的词条作为分词依据。

3.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,步骤

1中分完词后,每个文本是由以空格隔开的单词组成的文本语料;然后搜集停用词表,人工删除停用词表中对实验有用的词汇,并根据停用词表去除分完词后的语料中的停用词。

4.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤2利用正则表达式,提取经过步骤1分词、去停用词后的语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量,步骤具体为:首先计算一个文本中的其中一个词的词频,然后再计算这个词的反文档频率,把这个词的词频和反文档频率相乘就得到了这个的TF-IDF值;然后将一个情感文本中的所有词语都计算一遍,将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量,最后计算出所有文本的浅层特征向量。

5.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤2采用Doc2vec对经过步骤1分词、去停用词后的语料进行训练,具体为:使用Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,将步骤2中处理好的的语料输入模型中,把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量,将所有文本向量和所有对应的词向量累加或者连接起来,作为输出层Softmax的输入;构建目标函数,在训练过程中保持文本向量不变,使用随机梯度上升法进行词向量更新,在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变,重新利用随机梯度上升法训练待预测的文本,得到最终的情感文本深层特征向量。

6.根据权利要求5所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,PV-DM模型的输入是一个长度可变的段落Paragraph Id和该段落中的所有单词Words,Paragraph Id代表的是情感文本,输出是根据ParagraphId和Words预测出的单词,PV-DM模型的训练过程:将每个Paragraph Id和Words分别映射成唯一的段落向量和唯一的词向量,并且将所有Paragraph Vector按列放入矩阵D和所有Word Vector按列放入矩阵W中;将Paragraph Vector和WordVector累加或者连接起来,作为输出层Softmax的输入,输出层Softmax是以Paragraph Id中的词条作为叶子结点,词条在文本语料中出现的次数当作权值,构造的哈弗曼树。

7.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤3:将步骤2中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量具体为:将所有文本浅层特征向量放入到一个文本中,每一行代表一个文本向量,同样将得到的所有深层文本向量也放入到一个文本中,每一行也代表一个文本向量,设定两种特征的权重比为1:1,将两个文本的每一行直接进行首尾相连,得到新的情感文本特征向量。

8.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤4训练SVM情感分类模型的具体步骤为:将步骤3中得到的训练语料集的情感文本特征向量输入SVM,最优超平面中的核函数设计为非线性核函数,把输入空间Rn映射到m维的特征空间,在高维空间中构造分界超平面: 将积极情绪文本和消极情绪文* *本分开,式中wj是连接特征空间至输出空间的权值,b为偏置值,φ(x)为向量x在高维特征空间的非线性映射,训练完成后,保存情感分类模型。

9.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤4得到情感分类模型后,将步骤3中得到的测试语料集的情感文本特征向量输入SVM,根据已经训练好的情感分类模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1即标签等于2,判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。