欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100873253
申请人: 安徽理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种微博子话题用户评论情感倾向性分析,其特征在于包括如下步骤:步骤1:获取短文本集合D={D1,D2,...,Dn};

步骤2:对获取的所述短文本集合中的短文本进行预处理;

步骤3:采用LDA模型对处理后的微博数据集进行聚类,得到子话题候选集,具体包括:步骤3.1:D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词,D中涉及的所有不同单词组成一个词库;对所有的d和t先随机地给θd和φt赋值,然后不断重复下列3.2与3.3的迭代步骤,最终收敛到的结果就是LDA的输出;

步骤3.2:对每个D中的文档d,对应到不同子话题的概率θd<pt1  ,pt2 ,...,ptk>,其中,pti表示d对应T中第i个子话题的概率 ,其中nti表示d中对应第i个子话题的词的数目,n是d中所有词的总数;

步骤3.3:对每个T中的子话题ti,生成不同单词的概率φt<pw1,pw2,...,pwm>,其中,pwi表示t生成词库中第i个单词的概率  其中nwi表示对应到子话题ti的词库中第i个单词的数目,n表示所有对应到子话题ti的单词总数,然后根据这些概率值结果为每个文档中的第i个单词wi选择一个令pj(wi |ds)最大的tj;

步骤4:对模型结果进行评价,并对相似子话题进行融合;

步骤5:输出子话题集及每个文本对应的子话题

步骤6:对输出的子话题集及其对应的文本采用k‑means聚类方法,得到用户评论倾向性类别集合;

步骤7:对聚类结果进行有效性评价,具体包括:

聚类结果评价标准:基于簇内相似度的簇间方差ICS‑VAR;首先要计算出每个簇的簇内相似度ICS,这里用一个簇内每个样本点与其所在簇的聚类中心的余弦相似度的平均值作为簇内相似度,其公式为:步骤7.1:一种K值聚类下,产生的K个簇,计算其簇内相似度的平均值步 骤 7 .2 : 引 入 簇 内 相 似 度的 簇间 方 差 I C S ‑ V A R ,其 公式 为 :步骤7.3:比较不同K值下得到的聚类结果方差,选取方差较小的聚类结果作为最终输出结果;

步骤8:输出聚类结果,对所得结果进行人工标注。

2.根据权利要求1所述一种微博子话题用户评论情感倾向性分析,其特征在于步骤4包括:选取m个词作为关键词,两两子话题之间比较相同的关键词,关键词的个数为k个;采用公式 计算两两子话题之间的相似度,当相似度大于阈值时,将这两个子话题融合,这里采用将子话题数减一再重新进行上述步骤迭代的方法,直到没有子话题的相似度大于阈值。