欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108364013
申请人: 河南科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于行为习惯的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:S1:当需要对社交网络A中的用户识别其在社交网络B中的相同账号时,分别从社交网络A和社交网络B中爬取各自用户的显示名称和历史发布内容,记两个社交网络中用户数量分别为NA和NB;

S2:分别计算社交网络A中各个用户i和社交网络B中各个用户j的显示名称相似度S3:从各个用户的历史发布内容中提取出该用户的兴趣图谱,分别计算得到社交网络A中各个用户i和社交网络B中各个用户j的兴趣图谱相似度S4:综合社交网络A中各个用户i和社交网络B中各个用户j显示名称相似度 和兴趣图谱相似度 进行用户识别,确定社交网络A中的用户在社交网络B中账号。

2.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S2中显示名称相似度 的计算方法包括以下步骤:S2.1:采用以下公式计算两个用户显示名称的长度相似度

其中, 表示社交网络A中用户i的显示名称, 表示社交网络B中用户j的显示名称,len( )表示求取长度,min( )表示求取最小值,max( )表示求取最大值;

S2.2:采用以下公式计算两个用户显示名称的字符相似度

其中, 表示显示名称 和 的最长公共子串;

S2.3:记可用于显示名称的字母数量为G,对于每个显示名称分别转换得到一个G维字母向量,该向量中第g个元素表示该显示名称中第g个字母的出现次数,记显示名称 和的字母向量分别为 和 计算字母向量 和 的余弦相似度,作为显示名称 和的字母相似度S2.4:采用以下公式计算得到社交网络A中用户i和社交网络B中用户j的显示名称相似度其中, 表示特征相似度 对应的权重。

3.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S2.4中权重 采用如下方法确定:采用以下公式计算社交网络A中用户i和社交网络B中用户j的第q种特征相似度的熵值其中, 采用以下公式计算:构建变种赋权参数

计算得到权重

4.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S3中兴趣图谱相似度 的计算方法包括以下步骤:S3.1:将所提取的历史发布内容的时间段划分为K个子时间段Δtk,k=1,2,…,K,分别对于社交网络A中用户i和社交网络B中用户j,根据其历史发布内容提取各个子时间段Δtk内的主题分布向量 和表示社交网络A中用户i在子时间段Δtk的历史发布内容在第d个主题对应的主题分布值, 表示社交网络B中用户j在子时间段Δtk的历史发布内容在第d个主题对应的主题分布值,d=1,2,…,D,D表示主题数量,根据实际需要设置;

S3.2:对于社交网络A中用户i,对于每个子时间段Δtk的主题分布向量 与其前后两个相邻的主题分布向量之间 和 之间的相似度,如果相似度均小于预设阈值,则判定该主题分布向量 所对应的主题分布为短期的兴趣因子,将此主题分布向量 删除,否则认为该主题分布向量 所对应的主题分布为长期的兴趣图谱,保留该主题分布向量即不作任何操作。采用相同方法对社交网络B中用户j的主题分布向量进行处理,得到社交网络B中用户j所保留的主题分布向量S3.3:在得到社交网络A中用户i和社交网络B中用户j各自兴趣图谱所包含的主题分布向量后,根据所保留的主题分布向量的子时间段筛选出两个用户共同的子时间段,记共同子时间段数量为K′。然后采用以下公式计算得到兴趣图谱相似度其中, 表示社交网络A中用户i在第k′个共同子时间段的主题分布向量, 表示社交网络B中用户j在第k′个共同子时间段的主题分布向量,k′=1,2,…,K′。

5.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S3.2中两个主题分布向量的相似度采用以下方法计算:记两个主题分布向量分别为P1=[p1(1),p1(2),…,p1(D)]和P2=[p2(1),p2(2),…,p2(D)],其KL散度H采用以下公式计算:则两个主题分布向量的相似度sim采用以下公式计算:

sim=[H+λ]-1

其中,λ是避免分母为0所设置的一个极小值。

6.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S4中用户识别的方法为:计算名称相似度 和兴趣图谱相似度 的加权和作为综合相似度,对于社交网络A中各个用户i,选择社交网络B中与其综合相似度最高的用户作为其在社交网络B中的账号。

7.根据权利要求1所述的跨社交网络用户身份识别方法,其特征在于,所述步骤S4中用户识别的方法包括以下步骤:首先在社交网络A和社交网络B中获取若干属于同一人的用户对,采用步骤S2和步骤S3中的方法计算得到每个用户对中两个用户名称相似度和兴趣图谱相似度,构成相似度向量,将其作为正样本,另外再获取若干不属于同一人的用户对,采用步骤S2和步骤S3中的方法计算得到每个用户对中两个用户的名称相似度和兴趣图谱相似度,构成相似度向量,将其作为负样本。采用正样本和负样本对预设设置的分类模型进行训练,得到用户匹配分类模型。在进行用户匹配时,将社交网络A中用户i和社交网络B中用户j的名称相似度 和兴趣图谱相似度 输入用户匹配模型中,得到是否匹配的结果;利用一对一限制和Gale-Shapley算法来优化匹配结果,得到最终的用户识别结果。