1.社交网络评论热点事件舆情大数据分析方法,其特征在于,首先采取网络爬虫抓取社交网络评论页面,基于社交网络评论页面的AJAX刷新进行解析,针对抓取的HTML源代码分析抽取关键评论信息;然后基于HowNet作为情感词典的基础,同时从中选取部分情感词作为基准词,在语料中抽取部分候选情感词,基于深层启发学习构建词的特征向量然后计算候选情感词的情感倾向度来判断其词性,再人工筛选后加入到情感词典中;最后对社交网络评论的情感倾向性分类,首先通过情感词的褒贬倾向,并结合程度副词,否定词,标点符号基于社交网络评论的情感解析判断其情感倾向,在社交网络评论中选取情感词作为特征构建文本空间向量,再放入强化学习分类器中分类,将基于情感解析的社交网络评论感情识别方法和基于强化学习的社交网络评论感情识别方法结合起来提出了一种自适应监督模型;
第一阶段首先将社交网络评论文本进行预处理,然后利用基于深层启发学习的词汇情感倾向计算方法进行候选词词汇情感计算后扩充情感词典,最后基于情感解析计算出评论的情感值,得分大于0的划分为正面,得分小于0的划分为负面;然后将评论情感得分的绝对值进行从大到小排列,情感得分绝对值|O|>K的为确定分类集,反之为不确定分类集;
第二阶段利用第一阶段的分类结果,将确定分类集中的数据作为训练集,对不确定分类集进行再分类;通过第一阶段基于情感解析的分类,获得分类正确率极高的确定分类集,和分类正确率低的不确定分类集,搭建基于强化学习的分类器,利用对精确分类集的训练对不确定分类集进行分类;利用强化学习对不确定集合分类后,对不确定集合在两个阶段中的分类结果进行整合处理,以此来提高这些情感倾不明确的文本的分类正确率,如果两次分类结果相同,则结果为最终分类结果;如果两次分类结果不同,则不同的结果均视为正面情感;
基于情感词典的特征选取:通过扩充后的情感词典筛选,得到s个词的特征词列,即为最终选取的特征F=(t1,t2,…,ts),社交网络评论文本的形式化表示:将其表示为适应的结构化模型来方便计算机利用强化学习进行处理,文本空间向量将每个评论中出现的所有特征词对应词向量相加然后取平均值表示如下式: 其中wk表示第k个特征词的词向量,l表示该文本中特征词的个数,得到文本向量后,将其转化为利于强化学习的格式,训练和测试文本集表示为一个矩阵形式:即行表示文本、列表示特征及权重,如下: 其中,每一行表示一个文本,第一列label为文本的类别id,其余列为文本特征,i代表序号,w代表权重,label∈{‑1,1},‑1为负面,1为正面;利用两个文本在向量空间中的距离来表示其相似性,距离计算的夹角余弦值视为内积的归一化,采用深层启发学习来转化评论文本向量;
采用格搜索法选取最佳分类效果的惩罚函数C,首先设定C的取值范围,C取2的指数,设m m+st n
定其指数范围为[m,n],步增step为st,C的取值分别为2 ,2 ,…,2;其次,取不同的C值进行交叉验证,得到不同的分类精度;最后,将取得最佳分类精度的C值作为最佳惩罚函数。
2.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于深层启发学习的词汇情感分析:首先将未知词以及情感词典中的词都转化为词向量,词向量是根据词汇所在上下文计算的,网络语通过计算向量空间上的余弦相似度充分表示文本语义上的相似度;
通过训练将每个词映射成K维实数向量,通过词之间的距离来判断它们之间的语义相似度,具体训练过程如下:
第一步:准备训练语料库,融合wiki和百度中文语料库,首先转化成简体字,然后进行去重、分词、去掉非汉语多余字符的处理;
第二步:对处理后的语料进行训练分词;
第三步:得到训练后的向量文本向量维度介于400‑600,词向量个数介于550000‑
754560个;
第四步:词汇情感倾向计算,深层启发学习生成文本向量作为每一个维度代表一个语义,在获得两个基于语义所构成的文本向量时,通过夹角余弦来计算其语义相似度;
采用多选取一些基准词来排除其它语义的干扰,同时这些基准词表达的情感倾向不但强烈,且在不同的方面表达正面和负面情感,融入多对基准词后的词汇w词汇情感倾向计算式如下:k是基准词对数,key‑pi是第i个正面基准词,key‑nj是第j个反面基准词,若T(w)>0,则该词汇为正面情感词汇,反之为负面情感词汇;将HowNet情感词典放入wiki分词后的语料遍历,将出现次数从大到小排序,然后从中按照情感倾向程度,以及尽量从多方面的角度考虑人工选取,同时褒义词贬义词按对选取尽量来排除其它语义的干扰,最后挑选出基准词。
3.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于强化学习的社交网络评论感情识别:通过计算机利用强化学习方法从训练文本集中抽取规则,建立分类器,然后将训练得到的分类器应用于对未知文本分类,基于强化学习的社交网络感情识别,解决的问题包括:一是社交网络评论特征选取;还有文本的表示问题;最后则是分类算法实现。
4.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,基于强化学习的社交评论分类方法:对词向量形式的文本进行训练,训练好分类器后,然后对测试文本进行类别判断,步骤如下:第1步:按照强化学习要求格式准备文本集;
第2步:选取最佳参数,对训练文本集进行训练以获取最佳的分类;
第3步:利用获取的分类器对测试文本集进行分类测试,得到结果;
强化学习数据格式如下:
<label><index>:<value><index2>:<value2>…
其中:<label>表示训练数据集的值,在二分类情况下采用1和‑1;<index>表示数据的索引值,以1开头的整数,必须是升序出现,可以不连续;<value>表示数据的特征值以实数表示,在不同的特征值之间以空格隔开。
5.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,强化学习径向因子:对于线性可分的数据可以画出一条直线将元组分开,对于非线性不可分的数据,选取一个径向因子,通过将数据映射到高维空间来解决在原始空间中线性不可分的问题;
建立非线性学习器分为两步:首先使用一个非线性映射将数据变换到一个特征空间F,然后在特征空间使用线性学习器分类;采用线性径向因子在特征空间中直接计算内积,将两个步骤融合到一起建立一个非线性的学习器。
6.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,强化学习惩罚函数:在选取线性径向因子后,参数选取惩罚函数C,惩罚函数表明对离群点的重视程度,C越大说明越重视,越不想丢弃这些离群点。
7.根据权利要求1所述社交网络评论热点事件舆情大数据分析方法,其特征在于,融合情感解析与强化学习的评论感情识别方法:该模型由两个过程组成,采用基于情感解析和强化学习相结合的自监督分类模型,整个分类过程分为两部分,第一部分基于情感解析在对情感词典扩充后进行分类,第二部分将第一部分中正确率高的一部分作为训练集对分类正确率低的部分进行再分类,最终整合两次分类结果得到最终结果;
第一阶段,首先抽取出社交网络评论文本,进行文本的预处理,然后利用20对褒贬强烈的基准词基于深层启发学习对评论文本中的候选情感词进行情感倾向计算来对情感词典进行扩充,然后基于情感词典以及对评论文本情感解析的理解对每个评论计算出一个情感值,再将情感值除以文本的长度以此来消除文本长度的影响,从而得到一个综合的评论情感得分,情感值或情感得分大于0的为正面情感,小于0的为负面情感,最后将评论情感得分取绝对值进行排序,将绝对值高的部分作为确定分类集,低的作为不确定分类集;
第二阶段中利用第一阶段的分类结果,构建基于强化学习的强化学习模块,利用情感词典进行特征选取,再将确定分类集中的数据作为训练集,对不确定分类集进行再分类,这一部分数据的最终分类结果由两阶段的分类结果整合确定。