1.一种基于多维社交网络的社区发现方法,其特征在于,包括以下步骤:(1)、用户间社交关系紧密度计算
1.1)、将好友关系网从有向无权网络转化为无向带权网络用户与用户之间有互相关注行为,用户i关注用户j或者用户j关注用户i或者两者互相关注形成了有向网络;定义用户i与用户j相互关注,则用户i与用户j之间边的权值为1,只有用户i关注用户j或者只有用户j关注用户i,则定义用户i与用户j之间边的权值为0.5,即:
1.2)、评论关系、推荐转发关系网融合为评论推荐网
1.2.1)、定义用户间关系强度:其中, wij表示用户i对用户j的评论或推荐转发次数,wji表示用户j对用户i的评论或推荐转发次数;
1.2.2)、将用户关系强度Sij标准化,令D为所有用户关系强度中的最大值,则标准化后的用户关系强度Dij=Sij/D,Dij的取值范围为[0,1];
1.3)、对好友关系网、评论推荐网进行融合为社交关系网,用户间社交关系紧密度Cij:Cij=αFij+βDij
其中,参数α、β为融合权重参数,α+β=1;
(2)、用户间主题相似度计算
2.1)、爬取每个用户的标签信息和博文内容,然后利用分词工具剔除介词、连词等无法体现用户主题的冗余词汇,留下能够表示用户主题的名词等词汇,再统计各个词汇的频数即词频,并根据词汇所属主题类别,统计各个主题类别下各个词汇词频的总数即主题类别词频;
将各主题类别词频映射到0到10之间,并表示为向量,该向量为表征用户兴趣的特征向量即兴趣特征向量,所有用户的兴趣特征向量构成兴趣相似网;
2.2)、根据用户的兴趣特征向量,得到用户间主题相似度Tij:其中,xi_k为用户i的兴趣特征向量中的第k个主题类别词频,xj_k为用户j的兴趣特征向量中的第k个主题类别词频,n为主题类别数量;
(3)、用户间总相关度计算
根据社交关系紧密度以及主题相似度,得到用户间总相关度Rij:Rij=γCij+(1‑γ)Tij其中,γ为分配权值,为0到1之间;
(4)、社区进行划
将每个用户看成一个节点,将用户间总相关度作为传递概率,用标签传播算法(label propagation算法)对社区进行划分:将所有具有相同标签的节点即用户划为一个社区,从而完成社交的发现。
2.根据权利要求1所述社区发现方法,其特征在于,所述参数α=0.618,β=0.382,所述分配权值γ取0.57。