1.一种微博评论数据分类方法,其特征在于,包括:
获取待分类的微博评论数据;
对所述待分类的微博评论数据进行分词处理,得到待分类分词文本;
采用训练好的Word2Vec模型对所述待分类分词文本进行处理,得到待分类词向量;
采用TF‑IDF算法对所述待分类词向量进行权重计算,得到待分类多维词向量;
将所述待分类多维词向量输入至训练好的Multi‑LSTM模型中,得到待分类的微博评论数据的分类结果;所述训练好的Multi‑LSTM模型是由训练好的第一Bi‑LSTM层、训练好的第二Bi‑LSTM层、训练好的LSTM层和训练好的全连接层依次连接而成;所述分类结果为正面舆论或负面舆论;
所述训练好的Multi‑LSTM模型的确定方法为:
获取微博语料库训练集;
对所述微博语料库训练集进行分词处理,得到训练分词文本;
采用训练好的Word2Vec模型对所述训练分词文本进行处理,得到训练词向量;
采用TF‑IDF算法对所述训练词向量进行权重计算,得到多维训练词向量;
将所述多维训练词向量进行划分,得到训练样本和测试样本;
基于Python的keras构建Multi‑LSTM模型;所述Multi‑LSTM模型是由第一Bi‑LSTM层、第二Bi‑LSTM层、LSTM层和全连接层依次连接而成;所述Multi‑LSTM模型的模型参数未知;
所述模型参数包括损失函数、优化器、学习率和激活函数;
将所述训练样本作为所述Multi‑LSTM模型中第一Bi‑LSTM层的输入,将所述训练样本对应的类标签作为全连接层的输出,依次对所述第一Bi‑LSTM层、所述第二Bi‑LSTM层、所述LSTM层和所述全连接层的模型参数进行双向学习,得到微博评论分类模型;
将所述测试样本输入至所述微博评论分类模型中进行分类准确率验证,将分类准确率达到设定标准的微博评论分类模型确定为训练好的Multi‑LSTM模型。
2.根据权利要求1所述的一种微博评论数据分类方法,其特征在于,在所述获取待分类的微博评论数据之后,还包括:判断所述待分类的微博评论数据的数据类型;
当所述待分类的微博评论数据为图片形式时,则采用OCR图像识别技术提取所述待分类的微博评论数据中的文本数据。
3.根据权利要求1所述的一种微博评论数据分类方法,其特征在于,所述对所述待分类的微博评论数据进行分词处理,得到待分类分词文本,具体包括:采用基于Python的结巴分词对所述待分类的微博评论数据进行分词处理,得到待分类分词文本。
4.根据权利要求1所述的一种微博评论数据分类方法,其特征在于,所述训练好的Word2Vec模型的确定方法为:构建Skip‑gram模型;所述Skip‑gram模型包括依次连接的输入层、隐藏层和输出层;
将所述训练分词文本作为所述Skip‑gram模型的输入,以词概率分布作为所述Skip‑gram模型的输出,采用梯度下降法进行训练,得到训练后的Skip‑gram模型,并将所述训练后的Skip‑gram模型确定为训练好的Word2Vec模型。
5.一种微博评论数据分类系统,其特征在于,包括:
数据获取模块,用于获取待分类的微博评论数据;
分词模块,用于对所述待分类的微博评论数据进行分词处理,得到待分类分词文本;
词向量确定模块,用于采用训练好的Word2Vec模型对所述待分类分词文本进行处理,得到待分类词向量;
多维词向量计算模块,用于采用TF‑IDF算法对所述待分类词向量进行权重计算,得到待分类多维词向量;
分类模块,用于将所述待分类多维词向量输入至训练好的Multi‑LSTM模型中,得到待分类的微博评论数据的分类结果;所述训练好的Multi‑LSTM模型是由训练好的第一Bi‑LSTM层、训练好的第二Bi‑LSTM层、训练好的LSTM层和训练好的全连接层依次连接而成;所述分类结果为正面舆论或负面舆论;
所述微博评论数据分类系统,还包括第一训练模块,用于确定训练好的Multi‑LSTM模型;所述第一训练模块包括:第一训练数据获取单元,用于获取微博语料库训练集;
第二分词单元,用于对所述微博语料库训练集进行分词处理,得到训练分词文本;
训练词向量确定单元,用于采用训练好的Word2Vec模型对所述训练分词文本进行处理,得到训练词向量;
多维训练词向量计算单元,用于采用TF‑IDF算法对所述训练词向量进行权重计算,得到多维训练词向量;
划分单元,用于将所述多维训练词向量进行划分,得到训练样本和测试样本;
第一模型构建单元,用于基于Python的keras构建Multi‑LSTM模型;所述Multi‑LSTM模型是由第一Bi‑LSTM层、第二Bi‑LSTM层、LSTM层和全连接层依次连接而成;所述Multi‑LSTM模型的模型参数未知;所述模型参数包括损失函数、优化器、学习率和激活函数;
第一训练单元,用于将所述训练样本作为所述Multi‑LSTM模型中第一Bi‑LSTM层的输入,将所述训练样本对应的类标签作为全连接层的输出,依次对所述第一Bi‑LSTM层、所述第二Bi‑LSTM层、所述LSTM层和所述全连接层的模型参数进行双向学习,得到微博评论分类模型;
验证单元,用于将所述测试样本输入至所述微博评论分类模型中进行分类准确率验证,将分类准确率达到设定标准的微博评论分类模型确定为训练好的Multi‑LSTM模型。
6.根据权利要求5所述的一种微博评论数据分类系统,其特征在于,还包括:判断模块,用于判断所述待分类的微博评论数据的数据类型;
文本提取模块,用于当所述待分类的微博评论数据为图片形式时,则采用OCR图像识别技术提取所述待分类的微博评论数据中的文本数据。
7.根据权利要求5所述的一种微博评论数据分类系统,其特征在于,所述分词模块,具体包括:第一分词单元,用于采用基于Python的结巴分词对所述待分类的微博评论数据进行分词处理,得到待分类分词文本。
8.根据权利要求5所述的一种微博评论数据分类系统,其特征在于,还包括第二训练模块,用于确定训练好的Word2Vec模型;所述第二训练模块包括:第二训练数据获取单元,用于获取微博语料库训练集;
第三分词单元,用于对所述微博语料库训练集进行分词处理,得到训练分词文本;
第二模型构建单元,用于构建Skip‑gram模型;所述Skip‑gram模型包括依次连接的输入层、隐藏层和输出层;
第二训练单元,用于将所述训练分词文本作为所述Skip‑gram模型的输入,以词概率分布作为所述Skip‑gram模型的输出,采用梯度下降法进行训练,得到训练后的Skip‑gram模型,并将所述训练后的Skip‑gram模型确定为训练好的Word2Vec模型。