欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2015102673072
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种网络短文本聚类方法,其特征在于,其具体实现步骤为,一、首先获取网络评论;

二、对获取的网络评论进行预处理,该预处理过程为:

将获取到的网络评论用分词软件进行分词,分成相应的词或是词语;

依据相应的停用词表去除停用词,分割出关键词;

对关键词进行权重计算,该权重计算采用改进的TFIDF公式进行,该改进的TFIDF公式为:IDFi=log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|);

当文本集中没有词ti时,式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1;

对计算好的权重进行表示,以便于计算机对其做聚类操作;

三、对经过预处理的文本进行文本聚类。

2.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,用n表示词语出现的次数,N表示文本集中的文本数,则函数的增减性以及极值如下:当 IDF′>0时,此时函数递增;当 IDF′=0时,到达极值;当IDF′<0时,函数递减;即当 时得到的权值会与 上的某个数的权值相同,当某个词出现的次数多于或少于极值时,它的权值降低,且无法区分文本。

3.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,所述文本聚类采用改进的K-means聚类方法,该改进的K-means聚类方法首先选择初始聚类中心,然后将大量文本集划分后再进行聚类。

4.根据权利要求3所述的一种网络短文本聚类方法,其特征在于,所述改进的K-means聚类方法的具体步骤为:

1)将进行预处理后的全部数据视为输入的数据集,从输入的数据集中随机抽取a个数据作为样本集A,其中a>k,该k为聚类后类的数目;

2)对样本集A中每个点都分别计算与整个数据集中点相似的个数,记为点的相似密度,计算样本集A中各个样本基于相似度阈值t的点相似密度r,相似度阈值t是给定介于[0,1]之间的数,当r

3)取出点相似密度最大的样本放入数据集K中;

4)在整个样本集中去除数据集K中的样本后重新取样本集A,重复步骤1)、2),直到数据集K中的样本个数为k为止,将数据集K中的样本作为算法的初始聚类中心;

5)用选取的初始聚类中心来进行K-means聚类方法的聚类。

5.根据权利要求4所述的一种网络短文本聚类方法,其特征在于,所述相似度采用向量夹角余弦来计算,相似度取值在[0,1]之间,数值越大相似程度越低,为0时代表完全相似,为1时代表完全不相似,相似度阈值t取值为0.8。