知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种网络短文本聚类方法

面议

专利号： 2015102673072

申请人：齐鲁工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-02-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种网络短文本聚类方法，其特征在于，其具体实现步骤为，一、首先获取网络评论；

二、对获取的网络评论进行预处理，该预处理过程为：

将获取到的网络评论用分词软件进行分词，分成相应的词或是词语；

依据相应的停用词表去除停用词，分割出关键词；

对关键词进行权重计算，该权重计算采用改进的TFIDF公式进行，该改进的TFIDF公式为：IDFi＝log(|{j:ti∈dj}|)*log(|D|/|{j:ti∈dj}|)；

当文本集中没有词ti时，式中的|{j:ti∈dj}|选取为|{j:ti∈dj}|+1；

对计算好的权重进行表示，以便于计算机对其做聚类操作；

三、对经过预处理的文本进行文本聚类。

2.根据权利要求1所述的一种网络短文本聚类方法，其特征在于，用n表示词语出现的次数，N表示文本集中的文本数，则函数的增减性以及极值如下：当 IDF′＞0时，此时函数递增；当 IDF′＝0时，到达极值；当IDF′＜0时，函数递减；即当时得到的权值会与上的某个数的权值相同，当某个词出现的次数多于或少于极值时，它的权值降低，且无法区分文本。

3.根据权利要求1所述的一种网络短文本聚类方法，其特征在于，所述文本聚类采用改进的K-means聚类方法，该改进的K-means聚类方法首先选择初始聚类中心，然后将大量文本集划分后再进行聚类。

4.根据权利要求3所述的一种网络短文本聚类方法，其特征在于，所述改进的K-means聚类方法的具体步骤为：

1)将进行预处理后的全部数据视为输入的数据集，从输入的数据集中随机抽取a个数据作为样本集A，其中a>k，该k为聚类后类的数目；

2)对样本集A中每个点都分别计算与整个数据集中点相似的个数，记为点的相似密度，计算样本集A中各个样本基于相似度阈值t的点相似密度r，相似度阈值t是给定介于[0，1]之间的数，当r

3)取出点相似密度最大的样本放入数据集K中；

4)在整个样本集中去除数据集K中的样本后重新取样本集A，重复步骤1)、2)，直到数据集K中的样本个数为k为止，将数据集K中的样本作为算法的初始聚类中心；

5)用选取的初始聚类中心来进行K-means聚类方法的聚类。

5.根据权利要求4所述的一种网络短文本聚类方法，其特征在于，所述相似度采用向量夹角余弦来计算，相似度取值在[0，1]之间，数值越大相似程度越低，为0时代表完全相似，为1时代表完全不相似，相似度阈值t取值为0.8。