欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100313694
申请人: 河南科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合用户多属性信息的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:S1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的显示名称、用户好友网络和历史发布内容,记两个社交网络中用户数量分别为NA和NB;预先在两个社交网络中获取已知属于同一用户的账号对作为种子账号对;

S2:从每个用户的显示名称中提取出预设的C个特征属性的数据,然后计算社交网络A中各个用户i和社交网络B中各个用户B B每个特征属性的相似度 c=1,2,…,C;

S3:从每个用户的好友网络中提取出预设的D个特征属性的数据,然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度 d=1,2,…,D;

S4:从每个用户的好友网络中提取出预设的E个特征属性的数据,然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度 e=1,2,…,E;

S5:设置C+D+E个权重,对步骤S2、S3和S4中计算得到的C+D+E个特征属性相似度进行加权求和,将求和值作为社交网络A中各个用户i和社交网络B中各个用户j的匹配评分scorei,j:S6:根据社交网络A中各个用户i和社交网络B中各个用户j的匹配评分scorei,j对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。

2.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S2中显示名称的特征属性包括长度特征、字符特征、字母特征,其相似度计算方法分别如下:社交网络A中各个用户i和社交网络B中各个用户j的显示名称长度相似度 采用以下公式计算::其中, 表示社交网络A中用户i的显示名称, 表示社交网络B中用户j的显示名称,len()表示求取长度,min()表示求取最小值,max()表示求取最大值;

社交网络A中各个用户i和社交网络B中各个用户j的显示名称字符相似度 的计算公式如下:其中, 表示显示名称 和 的最长公共子串;

社交网络A中各个用户i和社交网络B中各个用户j的显示名称字母相似度的计算方法如下:记可用于显示名称的字母数量为G,对于每个显示名称分别转换得到一个G维字母向量,该向量中第g个元素表示该显示名称中第g个字母的出现次数,记显示名称 和 的字母向量分别为 和 计算字母向量 和 的余弦相似度,作为显示名称 和 的字母相似度

3.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S3中好友网络的特征属性包括好友关系、朋友圈、聚类系数,其相似度计算方法分别如下:社交网络A中各个用户i和社交网络B中各个用户j的好友关系相似度 的计算公式如下:其中, 表示社交网络A中用户i的第p跳邻居节点集合 和社交网络B中用户j的第q跳邻居节点集合 的好友关系相似度,p,q=1,2,…,P,P表示预设的跳数,num()表示集合中的用户数量;

社交网络A中各个用户i和社交网络B中各个用户j的不同跳数的最大朋友圈相似度和最小朋友圈相似度计算公式如下:其中, 表示社交网络A中用户i的第p′跳最大朋友圈 和社交网络B中用户j的第q跳最大朋友圈 的好友关系相似度, 表示社交网络A中用户i的第p′跳最小朋友圈 和社交网络B中用户j的第q跳最小朋友圈 的好友关系相似度;

聚类系数的相似度包括平均聚类系数差值相似度和平均聚类系数比值相似度,其中社交网络A中各个用户i和社交网络B中各个用户j的平均聚类系数差值相似度 的计算公式如下:社交网络A中各个用户i和社交网络B中各个用户j的平均聚类系数比值相似度 的计算公式如下:其中,ACA,i表示社交网络A中用户i的平均聚类系数,ACB,j表示社交网络B中用户j的平均聚类系数;平均聚类系数为用户和其邻居节点集合中所有用户的聚类系数的平均值。

4.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S4中历史发布内容的特征属性包括文本信息特征、标点符号特征和状态时间戳特征,其相似度计算方法分别如下:社交网络A中各个用户i和社交网络B中各个用户j的文本信息特征相似度 的计算公式如下:其中,F表示频繁项, 分别表示社交网络A中用户i和社交网络B中用户j对应的频繁项F的支持度计数,CF表示频繁项F的项集数;

社交网络A中各个用户i和社交网络B中各个用户j的标点符号相似度 的计算方法为:从社交网络A中用户i和社交网络B中用户j所发布的文本信息中统计得到每种标点符号的使用次数与用户所发布文本数量的比值,形成标点符号向量,计算两个向量之间的相似度即为标点符号相似度社交网络A中各个用户i和社交网络B中各个用户j的时间状态戳相似度 的计算方法为:将每天划分为G个时间段,统计得到预设日期内各个用户在每个时间段的平均动态数,采用以下公式计算社交网络A中用户i和社交网络B中用户j的时间状态戳相似度:其中, 分别表示社交网络A中用户i和社交网络B中用户j在第g个时间

段的平均动态数,| |表示求取绝对值。

5.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S5中的权重采用以下方法确定:预先对权重设置初值,然后根据种子帐号对的特征属性相似度以及匹配结果采用梯度下降法对权重进行优化,得到最终的权重。