欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019112474675
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种社交网络的用户聚类方法,其特征在于,所述方法包括:

步骤1:获取社交网络中各个待聚类用户的账户信息,包括用户ID、用户地区、用户性别、用户粉丝数、用户关注数、内容标签以及发布时间;

步骤2:将社交网络中各个账户信息分别向量化,形成向量数据集;

步骤3:从所述向量数据集中选择多个向量分别作为初始聚类中心,按照初始聚类中心对用户分簇,按照分簇后的结果或聚类后的结果更新聚类中心,并按照聚类中心继续对各个用户聚类;直到聚类中心不再发生变化时,得到聚类后的多个分类,每个分类至少包括一个待聚类用户。

2.根据权利要求1所述的一种社交网络的用户聚类方法,其特征在于,所述将社交网络中各个账户信息分别向量化包括将每个账户信息的部分数据进行数字化转换成数字向量,将另一部分数据通过转向量sen2vec方法转化成语义向量,包括先使用预训练的词向量转化语义信息中的单词,对所有单词进行加权处理,再使用主成分分析法对整个语义信息集进行处理,得到每一条语义信息的向量表示;将数字向量与语义向量进行拼接,则对应为该待聚类用户账户信息的向量。

3.根据权利要求1所述的一种社交网络的用户聚类方法,其特征在于,所述步骤3包括以下步骤:步骤301:用改进的初始聚类中心方法从向量数据集中选取k个向量作为初始聚类中心;

步骤302:根据距离最近原则将所有的向量划分到距离它最近的聚类中心所代表的簇球中;

步骤303:计算每个簇球中所有向量的均值作为新的聚类中心,并计算簇球半径;

步骤304:根据簇球半径,和聚类中心之间的距离关系,找出每个簇的近邻簇;

步骤305:计算每个向量跟它所在近邻簇聚类中心之间的距离,根据就近原则将其划分到距离最近的簇球内;

步骤306:重复步骤303~步骤305,直到聚类中心不再发生变化时,输出聚类结果。

4.根据权利要求3所述的一种社交网络的用户聚类方法,其特征在于,所述步骤301包括:步骤3011:从向量数据集中随机选择一个向量数据作为第一个初始聚类中心;

步骤3012:使用马尔科夫模特卡罗方法从向量数据集中采取长度为3k的马尔科夫链,将马尔科夫链上的3k个数据作为候选的初始聚类中心;

步骤3013:对这3k个向量数据集中的候选初始聚类中心,采用普里姆最小生成树的方法,重复将最近的两个初始聚类中心合并成一个新的初始聚类中心,直到最后只剩下k个数据当作初始聚类中心。

5.根据权利要求3所述的一种社交网络的用户聚类方法,其特征在于,所述找出每个簇的近邻簇包括当两个簇的中心点之间的距离的一半小于当前簇的半径,则为近邻簇。

6.一种社交网络的用户聚类装置,其特征在于,包括:

数据接口模块,用于接入社交网络中各个待聚类用户的账户信息;

数据整形模块,用于对数据接口模块接入的账户信息进行整形,形成向量数据集;

聚类结果模块,用于对向量数据集中的向量进行处理,得到聚类后的多个分类,每个分类至少包括一个待聚类用户。

7.根据权利要求6所述的一种社交网络的用户聚类装置,其特征在于,所述数据整形模块包括数字向量生成单元和语义向量生成单元,所述数字向量生成单元用于将账户信息的部分数据转换成数字向量,所述语义向量生成模块用于将账户信息的另一部分数据转换成语义向量。

8.根据权利要求6所述的一种社交网络的用户聚类装置,其特征在于,所述聚类结果模块包括初始聚类中心选择单元、计算单元、结果运算单元;所述聚类中心选择单元用于选择出向量数据集中的初始聚类中心;所述计算单元用于计算簇球的半径距离以及任意两个簇球之间的距离关系;所述结果运算单元用于根据聚类中心划分出聚类结果。

9.根据权利要求6所述的一种社交网络的用户聚类装置,其特征在于,所述初始聚类中心选择单元包括随机选择子单元、固定选择子单元以及合并单元;所述随机选择子单元用于随机选择一个初始聚类中心,所述固定选择子单元用于根据马尔科夫模特卡罗方法从向量数据集中采取多个初始聚类中心,所述合并单元用于根据普里姆最小生成树的方法,将最近的两个初始聚类中心合并成一个新的初始聚类中心。

10.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运用的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5任一所述的方法。