知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于Spark的高维稀疏文本数据聚类方法

￥26000

专利号： 2016109885584

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-11-04

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于Spark的高维稀疏文本数据聚类方法，其特征在于，包括以下步骤：步骤1：通过Spark大数据平台提供的弹性分布式数据集RDD读入待处理数据集样本，并用RDD接口设计出存储高维稀疏数据集的分布式稀疏向量集；

用RDD接口设计出适用于存储高维稀疏数据集的分布式稀疏向量集的步骤包括：A1、使用分布式弹性数据集RDD读入高维稀疏文本数据集；

A2、数据集中的每个样本采用稀疏存储记为A；

A3、对A的样本随机采样划分为少样本数据块B，每个数据块用索引标记；

A4、利用Spark数据平台提供编程接口MapPartitionWithIndex根据索引号将少样本的数据块B分配到集群结点中；

步骤2：计算待处理数据集样本之间的相似矩阵M并采用稀疏向量集方式存储，相似度用欧式距离方式度量；

步骤3：将步骤2采用稀疏向量集方式存储的相似矩阵M对称化，并求出经过归一化laplace矩阵，并行对称矩阵变换具体包括：所述步骤3包括具体包括以下步骤：

B1、每个计算结点中数据块B与稀疏向量集P求欧氏距离得到距离矩阵，用以表征相似度，设计并行取上三角方法得到上三角矩阵U；

并行取矩阵上三角步骤为：

步骤1、高维分布式向量集载入样本间相似矩阵M，假设每块样本数为n(n＜属性维度d)，分区数idn＝d/n，这里需保证d％n＝0；

步骤2、每个结点数据集的数据按列划分被分为idn个n*n矩阵；

步骤3、根据分区号id找到相应位置的n*n矩阵并取上三角，右边所有列保持不变；

步骤4、如果最后一块矩阵是n*n直接取上三角，结束操作；否则舍弃；

B2、步骤B1所得的距离矩阵构建对称矩阵S；

B3、令对称矩阵S中元素Sij＝0，其中(i＝j)，对角矩阵记为：D，对其计算Laplace矩阵、归一化；

步骤4：用SVD特征分解归一化laplace矩阵并求出K个最近邻特征向量，将这K个最近邻特征向量组成为一个最近邻矩阵；

步骤5：步骤4构建的最近邻矩阵作为样本输入到K-means模型进行训练，完成聚类。

2.根据权利要求1所述的基于Spark的高维稀疏文本数据聚类方法，其特征在于，设计并实现一种计算各样本间的相似度并构建对称矩阵S的方法：D1、每个计算结点中数据块B与稀疏向量集P求欧氏距离，用以表征相似度，利用所述并行取上三角方法得到上三角矩阵U；

D2、步骤D1所得的距离矩阵采用点坐标方式COO存储，点集记为：CO；

D3、将CO中点坐标的行坐标与列坐标互换，记为CO'；

D4、将步骤D2、步骤D3的点集合并在一起构成对称矩阵S。

推荐专利

稀缺样本数据集条件下BN模型参数的计算方法

发明专利

￥31100

Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法

针对数据不均匀及数据稀疏的topN推荐系统及方法

发明专利

￥26000

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们