欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201910865901X
申请人: 河南科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于两级信息熵的跨社交网络用户身份识别方法,其特征在于,包括以下步骤:S1:分别从社交网络A和社交网络B中爬取各自用户的档案信息和行为信息,记两个社交网络中用户数量分别为NA和NB;

S2:从两种社交网络的档案信息属性中筛选出共同属性,从每个用户的档案信息中提取出共同属性对应的数据,然后计算社交网络A中各个用户i和社交网络B中各个用户j每个共同属性的相似度 i=1,2,…,NA,j=1,2,…,NB,m=1,2,…,M,M表示共同属性的数量;

S3:从每个用户的行为信息中提取出预设的N个特征属性的数据,然后计算社交网络A中各个用户i和社交网络B中各个用户j每个特征属性的相似度S4:将从档案信息所提取的所有用户M个共同属性的数据和从行为信息提取的所有用户N个特征属性的数据整合为H个属性的数据,H=M+N,然后采用熵权法确定H个属性的权值,作为各个属性的一级权值zh,h=1,2,…,H;

计算各个属性的贡献概率归一化值Ph:

基于信息熵构造变种权值Rh:

E(Ph)=-PhlogPh

计算基于两级信息熵的属性权值Wh:

S5:采用步骤S4得到的属性权值Wh计算社交网络A中各个用户i和社交网络B中各个用户j的H个属性相似度的加权和,作为社交网络A中各个用户i和社交网络B中各个用户j的匹配评分scorei,j;

S6:根据社交网络A中各个用户i和社交网络B中各个用户j的匹配评分scorei,j对两个社交网络中的用户进行匹配,从而得到用户身份识别结果。

2.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法,其特征在于,所述共同属性的相似度 的计算方法包括以下步骤:S2.1:首先判断第m种共同属性是否为预设的关键属性,如果是关键属性,进入步骤S2.2,否则进入步骤S2.3;

S2.2:判断两个用户的第m种共同属性是否一致,如果一致,则该共同属性的相似度否则S2.3:判断是否对第m种共同属性的数据进行向量化,如果是,进入步骤S2.4,否则进入步骤S2.5;

S2.4:对两个用户第m种共同属性的数据进行向量化,然后计算所得到的两个向量之间的余弦相似度,将其作为两个用户的第m种共同属性的相似度S2.5:将两个用户第m种共同属性的数据作为字符串,然后计算两个字符串之间的Dice系数,将其作为两个用户的第m种共同属性的相似度

3.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法,其特征在于,所述步骤S3中特征属性包括文本信息特征、标点符号特征和状态时间戳特征,其相似度计算方法分别为:对于文本信息特征而言,首先基于频繁模式挖掘来提取每个用户的文本信息特征,得到若干频繁项和每个频繁项对应的支持度计数,然后采用以下公式计算得到两个用户的文本信息特征相似度其中,F表示频繁项, 分别表示社交网络A中用户i和社交网络B中用户j

对应的频繁项F的支持度计数,CF表示频繁项F的项集数;

对于标点符号特征而言,从社交网络A中用户i和社交网络B中用户j所发布的文本信息中统计得到每种标点符号的使用次数占总标点符号数量的比例,形成标点符号向量,计算两个向量之间的相似度即为标点符号相似度;

对于时间状态戳特征而言,将每天划分为G个时间段,统计得到预设日期内各个用户在每个时间段的平均动态数,采用以下公式计算社交网络A中用户i和社交网络B中用户j的时间状态戳相似度:其中,ViA(g)、 分别表示社交网络A中用户i和社交网络B中用户j在第g个时间段的平均动态数。

4.根据权利要求1所述的基于两级信息熵的跨社交网络用户身份识别方法,其特征在于,所述步骤S7中用户匹配采用基于双向稳定婚姻匹配算法,具体方法为:依次选择社交网络A中的用户i,将其待匹配用户集合λi设置为社交网络B中的所有用户集合。从待匹配用户集合λi筛选出与用户i匹配评分最高的用户j,如果用户j未与社交网络A中其他用户匹配过,则将用户j与用户i进行匹配;如果用户j已经与社交网络A中其他用户i′匹配过,如果用户i与用户j的匹配评分高于用户i′和用户j的匹配评分,则将用户i与用户j进行匹配,删除用户i′的匹配结果,否则将用户j从待匹配用户集合λi删除,从删除后的待匹配用户集合λi中重新筛选与用户i匹配评分最高的用户,直到确定用户i在社交网络B中的匹配用户。