1.一种基于社区发现的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:
S1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的数据,记两个社交网络中用户数量分别为NA和NB;
S2:分别对社交网络A和社交网络B进行社区划分,具体方法为:
对于需要进行社区划分的社交网络,分别计算每两个用户节点之间的相似性,其计算公式如下:
其中,Sim(i,j)表示社交网络中用户节点i和用户节点j之间的相似度,e1表示用户节点i和用户节点j之间直接连接的边的数量,记用户节点i和用户节点j的公共邻居用户节点集合为φ,e2表示公共邻居用户节点集合φ中用户节点之间直接连接的边的数量,e3表示公共邻居用户节点集合φ中用户节点和用户节点i、用户节点j直接连接的边的数量,e4表示同时和公共邻居用户节点集合φ中用户节点、用户节点i存在直接连接的边以及同时和公共邻居用户节点集合φ中用户节点、用户节点j存在直接连接的边的数量,e5表示公共邻居用户节点集合φ中用户节点和其他不与用户节点i、用户节点j直接连接的用户节点之间直接连接的边的数量,w1、w2、w3、w4、w5表示不同类型的边数量所预先设置的权重,且满足w1>w2>w3>w4>w5;
根据所计算得到的用户节点相似性对用户节点进行层次聚类,将所得到的每个类中的用户所构成的子网络作为一个社区,从而完成社交网络的社区划分;
S3:计算社交网络A中的每个社区与社交网络B中每个社区的相似度;
S4:对于社交网络A中的每个用户i,采用以下方法计算其与社交网络B中用户的相似度:
首先获取用户i在社交网络A中所属的社区ai,从社交网络B中所有社区中搜索与社区ai相似度最高的社区记为bi,根据步骤S1爬取的用户数据,计算得到用户i与社区bi中所有用户的相似度,将用户i与社交网络B中社区bi以外所有用户的相似度记为0;
S5:根据步骤S4得到的社交网络A中各个用户和社交网络B中各个用户的相似度对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。
2.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述对于需要进行社区划分的社交网络建立用于存储节点入射边信息的哈希表table‑in和用于存储节点出射边信息的哈希表table‑out;在哈希表table‑in和哈希表table‑out中,其关键码值(key value)为边对应源用户节点i和目的用户节点j所定义元组g(i,j)的对象函数;将关键码值代入预设的哈希函数得到边在哈希表中对应的散列地址;
在计算社交网络中用户节点相似性时,公共用户节点集合和五种类型边的数量即可通过查找建立的哈希表table‑in和哈希表table‑out来获得。
3.根据权利要求1所述的跨社交网络用户 身份识别方法,其特征在于,所述步骤S3中社区相似度的计算方法为:预先从两个社交网络中获取若干对属于同一用户的账号对作为种子账号对,然后按照以下公式计算社交网络A第p个社区与社交网络B第q个社区的相似度Hpq:其中,FAp表示社交网络A第p个社区中属于种子账号对的用户节点集合,p=1,2,…,MA,MA表示社交网络A划分得到的社区数量,FBq社交网络B第q个社区中属于种子账号对的用户节点集合,q=1,2,…,MB,MB表示社交网络B划分得到的社区数量,||表示求取集合中用户节点数量。
4.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S4中用户相似度的计算方法如下:对于社交网络A中用户i和社交网络B社区bi中用户k,先分别计算其用户档案信息相似度、用户网络拓扑结构信息相似度和用户行为信息相似度,然后将三种相似度采用预设的权重进行加权求和得到用户相似度,其中用户档案信息相似度的计算方法为:将社交网络A中用户i和社交网络B社区bi中用户k的档案信息分别采用字符串stringi、stringk表示,记字符串stringi经过一系列编辑步骤变成stringk的变换次数为d(stringi,stringk),则用户i和用户k的用户档案信息相似度S1(i,k)的计算公式如下:其中,L()表示求取字符串长度;
用户网络拓扑结构信息相似度的计算方法为:预先从两个社交网络中获取若干对属于同一用户的账号对作为种子账号对,分别获取社交网络A中用户i和社交网络B社区bi中用户k的属于种子账号对的邻居节点集合Γi、Γk,则用户i和用户k的用户网络拓扑结构信息相似度S2(i,k)的计算公式如下:S2(i,k)=|Γi∩Γk|
用户行为信息相似度的计算方法为:分别获取社交网络A中用户i和社交网络B社区bi中用户k的历史发布内容,提取历史发布内容中的若干特征参数,构成用户i和用户k的行为向量ηi、ηk,则将两个行为向量ηi、ηk的余弦相似度作为两个用户i和用户k的用户行为信息相似度S3(i,k)。
5.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S5中采用双向稳定婚姻匹配算法进行用户匹配。