1.一种网络短文本聚类方法,其特征在于,其具体实现步骤为,一、首先获取网络评论;
二、对获取的网络评论进行预处理,该预处理过程为:
将获取到的网络评论用分词软件进行分词,分成相应的词或是词语;
依据相应的停用词表去除停用词,分割出关键词;
对关键词进行权重计算,该权重计算采用改进的TFIDF公式进行,该改进的TFIDF公式为:IDFi=log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|);
当文本集中没有词ti时,式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1;
对计算好的权重进行表示,以便于计算机对其做聚类操作;
三、对经过预处理的文本进行文本聚类。
2.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,用n表示词语出现的次数,N表示文本集中的文本数,则函数的增减性以及极值如下:当 IDF′>0时,此时函数递增;当 IDF′=0时,到达极值;当IDF′<0时,函数递减;即当 时得到的权值会与 上的某个数的权值相同,当某个词出现的次数多于或少于极值时,它的权值降低,且无法区分文本。
3.根据权利要求1所述的一种网络短文本聚类方法,其特征在于,所述文本聚类采用改进的K-means聚类方法,该改进的K-means聚类方法首先选择初始聚类中心,然后将大量文本集划分后再进行聚类。
4.根据权利要求3所述的一种网络短文本聚类方法,其特征在于,所述改进的K-means聚类方法的具体步骤为:
1)将进行预处理后的全部数据视为输入的数据集,从输入的数据集中随机抽取a个数据作为样本集A,其中a>k,该k为聚类后类的数目;
2)对样本集A中每个点都分别计算与整个数据集中点相似的个数,记为点的相似密度,计算样本集A中各个样本基于相似度阈值t的点相似密度r,相似度阈值t是给定介于[0,1]之间的数,当r
3)取出点相似密度最大的样本放入数据集K中;
4)在整个样本集中去除数据集K中的样本后重新取样本集A,重复步骤1)、2),直到数据集K中的样本个数为k为止,将数据集K中的样本作为算法的初始聚类中心;
5)用选取的初始聚类中心来进行K-means聚类方法的聚类。
5.根据权利要求4所述的一种网络短文本聚类方法,其特征在于,所述相似度采用向量夹角余弦来计算,相似度取值在[0,1]之间,数值越大相似程度越低,为0时代表完全相似,为1时代表完全不相似,相似度阈值t取值为0.8。