1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:步骤1:获取短文本集合D={D1,D2,...,Dn};
步骤2:对获取的评论进行预处理;
步骤3:采用LDA模型对处理后的微博数据集进行聚类,得到子话题候选集;
步骤4:对模型结果进行评价,并对相似子话题进行融合;
步骤5:输出子话题集及每个文本对应的子话题
步骤6:对输出的子话题集及其对应的文本采用k-means聚类方法,得到用户评论倾向性类别集合;
步骤7:对聚类结果进行有效性评价;
步骤8:输出聚类结果,对所得结果进行人工标注。
2.根据权利要求1所述一种微博子话题用户评论情感倾向性分析,其特征在于步骤4包括:选取m个词作为关键词。两两子话题之间比较相同的关键词,关键词的个数为k个。采用公式 计算两两子话题之间的相似度,当相似度大于阈值时,将这两个子话题融合,这里采用将子话题数减一再重新进行上述步骤迭代的方法,直到没有子话题的相似度大于阈值。
3.根据权利要求1所述一种微博子话题用户评论情感倾向性分析,其特征在于步骤7包括:步骤7.1:常用聚类结果评价有DBI(所有簇的簇中各点到簇中心距离的平均距离之和除以各簇中心点之间的距离之和)、CH(计算类间分离度和类内紧密度的比值)等;
步骤7.2:在上述聚类有效性评价标准下,不同K值得到的聚类结果评价相似,难以判断哪种K值更为优异的情况下,引入一个新的聚类结果评价标准:基于簇内相似度的簇间方差ICS-VAR;首先要计算出每个簇的簇内相似度ICS,这里用一个簇内每个样本点与其所在簇的聚类中心的余弦相似度的平均值作为簇内相似度,其公式为:步骤7.3:一种K值聚类下,产生的K个簇,计算其簇内相似度的平均值步骤7.4:引入簇内相似度的簇间方差ICS-VAR,其公式为:步骤7.5:比较不同K值下得到的聚类结果方差,选取方差较小的聚类结果作为最终输出结果。