1.一种基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:包括:数据获取模块,被配置为:获取待处理的文本数据,对获取的文本数据进行预处理;
对获取的文本数据进行预处理,包括:
从文本数据中提取标题、内容和标签,去除由于已删除内容而缺少的数据以及不相关数据,将文本数据转换为小写字母;
词嵌入模块,被配置为:根据预处理后的文本数据和预设词嵌入模型,得到词嵌入向量;
情感特征向量获取模块,被配置为:根据预处理后的文本数据和预设情感词典,得到每个词的二维情感特征向量;
对SenticNet4.0情感词典进行扩充,包括:融入常用的网络表情符号、常用网络流行用语的情感以及常用俚语;
单词级特征向量获取模块,被配置为:提取文本数据中的词性特征向量,依次与二维情感特征向量和词嵌入向量拼接后,得到单词级别的特征向量表示;
提取基于扩充后的SenticNet4.0情感词典的二维情感特征向量,提取单词的一维词性特征,将两者进行拼接,得到每个单词的三维特征向量表示,将三维特征向量表示与词嵌入向量进行拼接,得到单词级别的特征向量表示;
句子级特征向量获取模块,被配置为:提取文本数据中的词频特征向量,得到句子级别的特征向量表示;
提取n‑gram的TF‑IDF词频特征,选取TF‑IDF词频矩阵中互信息最大的预设个数特征作为文本的向量表示,进而得到句子级别的特征向量表示;
分类模块,被配置为:根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型,得到最终的分类结果;使用深度学习模型进行特征提取,分别将CNN模型应用于303维的特征表示向量vi和1000维的特征表示向量ti,两者分别经过CNN模型后,得到:Vi=CNN(vi) (4)
Ti=CNN(ti) (5)
其中,Vi,Ti分别表示经过CNN模型后生成的高层特征;
将得到的Vi,Ti特征向量进行融合,作为Bi‑LSTM模型的输入;
MixedFeature=concatenate(Vi,Ti) (6)Fea=BiLSTM(MixedFeature) (7)其中,MixedFeature表示融合后的特征向量,Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量;
最后,将高层特征Fea输入到Sigmoid层进行分类,得到最终的预测结果Result:Result=Sigmoid(Fea) (8)。
2.如权利要求1所述的基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:分类模块中,将单词级别的特征向量表示和句子级别的特征向量表示,分别输入到预设卷积神经网络中,将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi‑LSTM网络模型中,得到分类结果。
3.如权利要求1所述的基于多模态特征和情感词典的文本抑郁倾向检测系统,其特征在于:利用情感词典提取文本数据中词的情感属性特征,包括积极属性和消极属性,对情感属性特征进行数值化处理,令积极属性的值为1,消极属性的值为‑1,结合预处理后的文本数据,得到每个词的二维情感特征向量。
4.一种基于多模态特征和情感词典的文本抑郁倾向检测方法,其特征在于:包括以下过程:获取待处理的文本数据,对获取的文本数据进行预处理;
对获取的文本数据进行预处理,包括:
从文本数据中提取标题、内容和标签,去除由于已删除内容而缺少的数据以及不相关数据,将文本数据转换为小写字母;
根据预处理后的文本数据和预设词嵌入模型,得到词嵌入向量;
根据预处理后的文本数据和预设情感词典,得到每个词的二维情感特征向量;
对SenticNet4.0情感词典进行扩充,包括:融入常用的网络表情符号、常用网络流行用语的情感以及常用俚语;
提取文本数据中的词性特征向量,依次与二维情感特征向量和词嵌入向量拼接后,得到单词级别的特征向量表示;
提取基于扩充后的SenticNet4.0情感词典的二维情感特征向量,提取单词的一维词性特征,将两者进行拼接,得到每个单词的三维特征向量表示,将三维特征向量表示与词嵌入向量进行拼接,得到单词级别的特征向量表示;
提取文本数据中的词频特征向量,得到句子级别的特征向量表示;
提取n‑gram的TF‑IDF词频特征,选取TF‑IDF词频矩阵中互信息最大的预设个数特征作为文本的向量表示,进而得到句子级别的特征向量表示;
根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型,得到最终的分类结果;使用深度学习模型进行特征提取,分别将CNN模型应用于303维的特征表示向量vi和1000维的特征表示向量ti,两者分别经过CNN模型后,得到:Vi=CNN(vi) (4)
Ti=CNN(ti) (5)
其中,Vi,Ti分别表示经过CNN模型后生成的高层特征;
将得到的Vi,Ti特征向量进行融合,作为Bi‑LSTM模型的输入;
MixedFeature=concatenate(Vi,Ti) (6)Fea=BiLSTM(MixedFeature) (7)其中,MixedFeature表示融合后的特征向量,Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量;
最后,将高层特征Fea输入到Sigmoid层进行分类,得到最终的预测结果Result:Result=Sigmoid(Fea) (8)。
5.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1‑3任一项所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑3任一项所述的基于多模态特征和情感词典的文本抑郁倾向检测方法中的步骤。