欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016106835988
申请人: 盐城工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;

S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;

S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类;

所述K均值算法初始质心的计算包括以下步骤:

求出整个文本集X={x1,x2,...,xn}的质心向量u0:当1≤k≤K时,其中k为初始质心的个数,K为簇的个数,查找与u0及前k-1个初始质心u0,u1,…,uk-1距离之和最大的数据点xi,将其作为第k个均值向量,设d(u0,xi)表示u0与xi的距离,则通过公式 计算初始质心。

2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:S11:对文本集进行分词,移除低频词,生成特征词集W;

S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;

S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=n 2 1/2(Σi=1(tfij×idfi)) ,n为文本集的大小;

S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。

3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S02包括以下步骤:S21:高维数据点xi,xj之间的距离 被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差, 表示第k个

文本与第l个文本之间的距离;

S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量:上式的梯度为:

使用1个自由度的t分布测量yi,yj之间的相似度不同:采用重尾测量低维映射点之间的相似度,使得相似度较低的点在映射空间下的距离较大,而相似度较高的点在映射空间下的距离较小。