欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018105943170
申请人: 西南科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-03-22
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种跨平台的社交网络用户身份识别方法,其特征在于,包括以下步骤:(1)从社交网站账户数据中抽取出使用所述社交网站账户的各用户档案数据和用户行为数据;

(2)将用户档案数据和用户行为数据分别按照不同的特征属性划分成不同的维度,在不同的维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度,并基于不同的维度下的相似度构建用户档案数据相似度向量和用户行为数据相似度向量,将用户档案数据相似度向量和用户行为数据相似度向量一起组成用户相似度向量;

(3)基于信息熵的后验概率权值分配方法为用户的不同维度赋予相应的权重;(4)基于步骤(2)的用户相似度向量和步骤(3)为用户的不同维度赋予的权重构造用户评分公式,以稳定婚姻匹配算法进行匹配评分,将最终评分与评分阈值进行比较,从而得出最终识别结果;

所述步骤(2)具体包括:

将用户档案数据按照不同特征属性划分成不同维度,在不同的维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度,并将不同维度下的相似度与其相应的阈值进行比较,如果大于阈值则返回“1”,小于阈值则返回“0”,从而构成用户档案数据相似度向量;

将用户行为数据分别按照用户博文数据,博文特殊符号数据,博文状态时间数据划分成不同维度,在不同维度下分别构建频繁项集、特殊符号向量和时间戳向量,并根据构建的频繁项集、特殊符号向量和时间戳向量分别采用相应的相似度计算方法计算两个平台下的博文数据相似度、特殊符号相似度和时间戳相似度;将博文数据相似度、特殊符号相似度和时间戳相似度分别与其相应的阈值进行比较,如果大于阈值则返回“1”,小于阈值则返回“0”,从而构成用户档案数据相似度向量;

所述用户档案数据相似度向量和用户行为数据相似度向量构成用户相似度向量;

所述用户档案数据在不同维度下分别采用相应的相似度计算方法计算两个平台下各个维度的相似度包括:Dice系数计算,其计算公式为:

其中,a、b分别表示两个字符串集合;

余弦相似度计算,即把两个字符串量化成词向量,其计算公式为:其中,xi和yi表示词向量,i表示词向量的第i个维度,n表示词向量维度;

精确匹配:指两个特征属性是一模一样;

所述用户行为数据在不同维度下分别采用相应的相似度计算方法计算两个平台下的博文数据相似度、特殊符号相似度和时间戳相似度包括:基于频繁模式的文本相似度计算方法计算用户A和B的博文数据相似度,其计算公式为:其中, 表示A用户的频繁项Ei的支持度计数, 表示B用户的频繁项Ei的支持度计数, 表示Ei的项集数;

特殊符号相似度计算,其计算公式为:

其中,xi和yi分别表示两个用户的特殊符号特征向量,n代表特殊符号特征向量的维度;

时间戳相似度计算,其计算公式为:

其中,uai和ubi代表平均时间段动态数,n表示时间戳的维度;

,所述步骤(3)的基于信息熵的后验概率权值分配方法,其计算公式为:;

其中,p(ys|s)是特征属性的后验概率,即是同一个用户特征属性ys一致的概率;p(x)为在该特征属性下的可能取值概率;x表示某一特征属性;X表示所有特征属性。

2.根据权利要求1所述的跨平台的社交网络用户身份识别方法,其特征在于,所述步骤(4)的评分公式:其中,Score表示匹配的最终评分,Wi表示用户第i个特征属性的权重, 代表用户A和B在第i个维度上的相似度,n表示用户相似度向量维度;

所述以稳定婚姻匹配算法进行匹配评分,将最终评分与评分阈值进行比较,从而得出最终识别结果,其步骤如下:a.将网络平台A上的每个用户和网络平台B上的所有用户通过评分公式进行匹配评分;

b.按照最终评分高低顺序将网络平台A上的每个用户与网络平台B上排名首位的用户进行配对,如果网络平台B上的该用户未与网络平台A上其他人配对过,则将该用户和网络平台A上的当前用户配对;如果该用户已经和网络平台A上其他用户配对过,则该用户将和自己配对过的用户进行比较,选择和自己评分最高的用户作为匹配对;

c.如果所有的用户都已经配对则进入步骤d,如果还有未配对的用户,则返回步骤b;

d.设定评分阈值,将匹配评分高于评分阈值的作为同一个实体用户,而评分低于评分阈值的不作为同一个实体用户,从而产生最终的识别结果。