1.一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;
S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;
S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类;
所述K均值算法初始质心的计算包括以下步骤:
求出整个文本集X={x1,x2,...,xn}的质心向量u0:当1≤k≤K时,其中k为初始质心的个数,K为簇的个数,查找与u0及前k-1个初始质心u0,u1,…,uk-1距离之和最大的数据点xi,将其作为第k个均值向量,设d(u0,xi)表示u0与xi的距离,则通过公式 计算初始质心。
2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:S11:对文本集进行分词,移除低频词,生成特征词集W;
S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;
S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=n 2 1/2(Σi=1(tfij×idfi)) ,n为文本集的大小;
S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。
3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S02包括以下步骤:S21:高维数据点xi,xj之间的距离 被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差, 表示第k个
文本与第l个文本之间的距离;
S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量:上式的梯度为:
使用1个自由度的t分布测量yi,yj之间的相似度不同:采用重尾测量低维映射点之间的相似度,使得相似度较低的点在映射空间下的距离较大,而相似度较高的点在映射空间下的距离较小。