1.一种基于Spark的高维稀疏文本数据聚类方法,其特征在于,包括以下步骤:步骤1:通过Spark大数据平台提供的弹性分布式数据集RDD读入待处理数据集样本,并用RDD接口设计出存储高维稀疏数据集的分布式稀疏向量集;
用RDD接口设计出适用于存储高维稀疏数据集的分布式稀疏向量集的步骤包括:A1、使用分布式弹性数据集RDD读入高维稀疏文本数据集;
A2、数据集中的每个样本采用稀疏存储记为A;
A3、对A的样本随机采样划分为少样本数据块B,每个数据块用索引标记;
A4、利用Spark数据平台提供编程接口MapPartitionWithIndex根据索引号将少样本的数据块B分配到集群结点中;
步骤2:计算待处理数据集样本之间的相似矩阵M并采用稀疏向量集方式存储,相似度用欧式距离方式度量;
步骤3:将步骤2采用稀疏向量集方式存储的相似矩阵M对称化,并求出经过归一化laplace矩阵,并行对称矩阵变换具体包括:所述步骤3包括具体包括以下步骤:
B1、每个计算结点中数据块B与稀疏向量集P求欧氏距离得到距离矩阵,用以表征相似度,设计并行取上三角方法得到上三角矩阵U;
并行取矩阵上三角步骤为:
步骤1、高维分布式向量集载入样本间相似矩阵M,假设每块样本数为n(n<属性维度d),分区数idn=d/n,这里需保证d%n=0;
步骤2、每个结点数据集的数据按列划分被分为idn个n*n矩阵;
步骤3、根据分区号id找到相应位置的n*n矩阵并取上三角,右边所有列保持不变;
步骤4、如果最后一块矩阵是n*n直接取上三角,结束操作;否则舍弃;
B2、步骤B1所得的距离矩阵构建对称矩阵S;
B3、令对称矩阵S中元素Sij=0,其中(i=j),对角矩阵记为:D,对其计算Laplace矩阵、归一化;
步骤4:用SVD特征分解归一化laplace矩阵并求出K个最近邻特征向量,将这K个最近邻特征向量组成为一个最近邻矩阵;
步骤5:步骤4构建的最近邻矩阵作为样本输入到K-means模型进行训练,完成聚类。
2.根据权利要求1所述的基于Spark的高维稀疏文本数据聚类方法,其特征在于,设计并实现一种计算各样本间的相似度并构建对称矩阵S的方法:D1、每个计算结点中数据块B与稀疏向量集P求欧氏距离,用以表征相似度,利用所述并行取上三角方法得到上三角矩阵U;
D2、步骤D1所得的距离矩阵采用点坐标方式COO存储,点集记为:CO;
D3、将CO中点坐标的行坐标与列坐标互换,记为CO';
D4、将步骤D2、步骤D3的点集合并在一起构成对称矩阵S。