知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于随机近邻嵌入的文本聚类方法

面议

专利号： 2016106835988

申请人：盐城工学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于随机近邻嵌入的文本聚类方法，其特征在于，包括以下步骤：S01：对文本集进行预处理，将文本集表示为标准化词-文本共现矩阵；

S02：通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间，使高维空间相似度较低的文本对应的低维嵌入点距离较远，相似度较高的文本对应的低维嵌入点距离较近；

S03：将多个低维嵌入点作为K均值算法的初始质心，并根据低维空间映射点坐标，采用K均值算法进行聚类。

2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法，其特征在于，所述步骤S01中标准化词-文本共现矩阵的构建步骤包括：S11：对文本集进行分词，移除低频词，生成特征词集W；

S12：统计词wi在文本向量dj中出现的次数tij，词频tfij＝tij/Σitij；

S13：统计词wi在文本集中的次数ni，逆文本频率idfi＝log(n/ni)，计算归一化因子sj＝(Σni＝1(tfij×idfi)2)1/2，n为文本集的大小；

S14：计算加权文本向量u.j:uij＝tfij×idfi×sj，构建标准化词-文本共现矩阵A:A.j＝u.j。

3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法，其特征在于，所述步骤S02包括以下步骤：S21：高维数据点xi，xj之间的距离被转换为低维映射点的联合概率分布P，其元素pij为：σ表示高斯函数的方差，表示第k个文

本与第l个文本之间的距离；

S22：定义高维数据点xi，xj所对应的低维映射点yi与yj的联合概率qij，用qij来建模pii，两个分布P，Q的差异以KL散度衡量：上式的梯度为：

使用1个自由度的t分布测量yi，yj之间的相似度不同：采用重尾测量低维映射点之间的相似度，使得相似度较低的点在映射空间下的距离较大，而相似度较高的点在映射空间下的距离较小。

4.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法，其特征在于，所述步骤S03中K均值算法初始质心的计算包括以下步骤：求出整个文本集X＝{x1，x2，...，xn}的质心向量u0：当1≤k≤K时，其中k为初始质心的个数，K为簇的个数，查找与u0及前k-1个初始质心u0，u1，…，uk-1距离之和最大的数据点xi，将其作为第k个均值向量，设d(u0,xi)表示u0与xi的距离，则通过公式计算初始质心。