1.社交大数据平台垃圾广告用户精准识别方法,其特征在于,一是首次提出利用用户自核心网络整体的网络结构特征进行社交网络中垃圾用户识别,通过对用户的自核心网络整体性的特征提取,间接表示用户的身份属性,从社区性和信息传播动力学的角度衡量用户的整个自核心网络,提取若干鲁棒性好、对用户代表性强的网络结构特征;二是首次提出把多视图学习的联合训练方法应用到社交网络垃圾广告用户识别问题中,构造两个用户视图的方法,即用户自身特征视图和用户局部网络结构特征视图,对这两个视图使用联合训练,利用大量未标注样本提高基分类器性能,减少对有标注样本的依赖,缓解只使用网络结构特征造成的学习能力不足问题,使用较少人工标记样本建立一个稳定性好、泛化能力强及识别效率高的垃圾广告用户识别模型;
步骤1:基于内容特征的垃圾广告用户识别,包括:内容URL率及文本内容近似度、话题标签率及原创率、关注数、粉丝数及用户权威度、简介特征,挖掘用户的内容特征,据此构建用户的内容特征向量;
内容URL率定义为: 其中N(i)是含有的URL总数,N是
用户的总的社交文本文本数,f(i)是第i条社交文本中含有的URL数;
文本内容近似度:根据编辑距离计算一个用户发送社交文本的近似度,内容近似度特征TextSimRate定义为: 其中,N代表用户的社交文本总数,L(i,j)代表第i条和第j条有编辑距离算出的近似度,整个分子表示每两条社交文本都做近似度比较,然后把近似度累加求和,最后除以用户的社交文本总数N;
话题标签率:计算用户带有话题标签的社交文本数占总社交文本数的比例,作为识别垃圾广告 用户的一种 特征,用 户话题标签 率Topi cRate 定义如下 :其中t(i)是用户社交文本集中第i条社交文本来含有的话题标
签数,N为一个用户的总的社交文本数;
原创率定义如下: 其中o(i)是用户社交文本集中第i条文本来
自转发的量,来自转发则为1否则记为0,N为一个用户的总的社交文本数;
定义用户权威度: 用户权威度Auty、关注数N
(friend)、粉丝数N(follow)代表用户在社交网络中的属性;
步骤2:基于行为特征的垃圾广告用户识别,包括:转发率及提及率、发文时间规律及社交文本源特征,挖掘用户的行为特征,构建用户的行为特征向量用于一个用户是否是垃圾广告用户;
用户提及率MRate定义如下: 其中m(i)是用户社交文本及中
第i条社交文本所拥有的提及(@)量,N为一个用户的总的社交文本数;
用户转发率RepostRate定义如下: 其中r(i)是用户社交文
本集中第i条社交文本所拥有的被转发的量,N为一个用户的总的社交文本数;
发文时间规律:采用一定间隔时间内发送社交文本的数量占发布的总社交文本数的比例,作为发布社交文本时间模式特征;计算用户每天发布的社交文本中,一分钟内、两分钟内、五分钟内、十五分钟内、一小时内、二小时内、六小时内、二十四小时内、二十四小时以上发布的社交文本数量,然后累加每天的各个时间段内发布的社交文本数量,并分别除以用户的总社交文本数,得到一系列用户行为习惯的特征;
社交文本源丰富度特征:采用一组词汇丰富度函数,量化文本中词汇的多样性,刻画用户社交文本发布来源的多样性,使用下面四种丰富度计算函数:H=V(1,T)式9, 其中T作为总的社交文本源数,V(T)表示一个用户发
布的所有社交文本中出现的不同的社交文本来源数,v代表出现的社交文本源中最高频次,V(m,T)在一个用户所有社交文本源中出现m次;
步骤3:基于自核心网络结构特征的垃圾广告用户网络结构特征,包括:优势簇聚集因子、平均聚集因子及平均路径长度、模块度及图密度、中心性特征,首先构建用户的自核心网络,然后对整个网络从社会学和信息传播动力学的角度考虑,提出网络结构特征用于社交网络垃圾广告用户识别;
平均聚集因子:平均聚集因子c,一个结点u的相邻结点是所有和u直接相连的结点的集合,如果u相邻结点中的每个结点都连接到u相邻结点的其他结点,u的相邻结点完全,并且其聚类因子为1,如果u的相邻结点没有结点互相连接,这个结点的聚类因子将为0,对于整个网络通过计算所有局部值ci(i=1,2,…,n)的平均值得到整个网络的全局平均聚集因子如下式所示:平均路径长度:衡量信息在网络中流动的效率,为所有结点对之间距离的平均值;
中心性特征包括度中心性、特征向量中心性、中间中心性、接近中心性;
优势簇聚集因子:只考虑结点度排名靠前的结点连接程度,反映社交网络的拓扑层次性,描述核心层、核心结点的连接情况,描述网络整体情况,一个图G=(V,E)代表一个复杂网络,V>k代表度大于k的结点的集合,N>k表示度大于k的结点数,E>k表示这些结点之间的边数,优势簇聚集因子RCC定义如下:RCC表示大于k的结点之间的联系的紧密程度,在本申请设置每个用户个人中心网络的平均度为k;
基于不同用户展现的内容行为特征视图:根据用户发布的社交文本内容、历史行为、个人简介这些有用户发起或者直接创造的信息提取特征向量,并组合构成用户的自身特征视图,采用本申请基于行为与内容的垃圾广告用户特征提取方法;
以用户的关注列表和交互行为创建用户的自核心网络结构特征视图:第一步,关注自核心网络构建:首先提取每个用户的关注列表,构成一个以用户为中心的星型网络,然后检查任意两两用户之间是否存在关注关系,如果存在则在他们之间添加一条边,不存在则不做任何处理,最终每个用户都有自己的一个关注自核心网络;第二步,交互自核心网络构建:交互关系依据用户在发布社交文本和转发社交文本中与其他用户的互动进行提取,首先提取用户发布过的所有社交文本的主动提及和转发提及的所有的用户名集合,得到每个用户的以自己为中心的星型交互网络,然后检查任意两两用户之间是否存在过关注或者交互行为,存在则在他们之间添加一条边,不存在则不做任何处理,最终每个用户都有自己的一个交互自核心网络;第三步,结构特征值的计算:度量用户自核心网络的结构特性和传播特性,使用复杂网络开源计算包NetWorkX计算基于自核心网络结构特征的垃圾广告用户网络全部结构特征;
步骤4:不同用户展现联合训练的垃圾广告用户识别,包括:基于不同用户展现的内容行为特征视图、未标注样本分布不平衡问题处理、改进的联合训练算法,在构建两个独立性强异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上,通过联合训练方法利用无标注数据提高模型泛化能力,减少对标注数据集的依赖,缓解单视图学习能力不足问题;
未标注样本分布不平衡问题处理:在数据分布具有明显不平衡的垃圾广告用户识别问题上,本申请提出既考虑有标注的数据分布又考虑大量的无标注的数据的分布信息的方法,具体包括:第1步:对有标注的样本简单计算正负类别比例;第2步:对无标注的样本使用简单K‑Means聚类算法把无标注样本聚为两类,计算这两类的比例;第3步:对第1步、第2步中得到的分布情况进行算术平均数计算,从而得到更可靠的数据分布信息;本申请提出动态调整置信度和添加的比例来避免联合训练过程中快速持续恶化,具体做法是:设置最低置信度,每次迭代中选择前K个未标注样本添加到有标注中,只要基学习器性能没有持续多次下降,则正常迭代直到完成指定迭代次数或使用尽未标注样本;否则根据最低置信度过滤前K个,当候选不足时对K进行减半直到退化到K等于有标注样本中正负类最小的比例数;
改进的联合训练算法:步骤一:初始化每个视图上有标记的训练集;步骤二:在各个视图上使用有标记的样本进行训练,测试基分类器的性能指标并记录下来,检查如果性能出现连续多次下降则改变加入样本的数量,并调整选择TopK的置信度;步骤三:对选出的置信度高的无标记样本生成伪标记正负例;步骤四:除去未标记样本集中已经选择的样本;步骤五:扩充有标记的训练集进行下一次迭代;步骤六:得到两个联合训练后的基分类器;改进的联合训练算法,使用简单K‑means聚类方法对未标注数据集正负例分布做一个预测然后和已知的有标注数据集中的正负比例做调和平均,既考虑少量有标记样本中正负例的分布比例,又考虑大量无标记数据集中的正反例比例,改进标准的联合训练中假设两个数据集分布一致从而限制分类模型泛化能力的问题,此外,通过动态调整联合训练迭代中的置信度和添加的比例来避免联合训练过程中快速持续恶化,提高联合训练的计算效率;
步骤1‑4执行顺序:挖掘用户的内容特征和行为特征,据此构建用户的特征向量判断一个用户是否是垃圾广告用户,采用基于用户的自核心网络结构特征进行垃圾用户识别的方法,构建用户的自核心网络,然后将强化多视图学习应用到社交网络垃圾广告用户识别问题中,在构建两个独立性强、异质性好的用户内容行为特征视图和自核心网络结构特征视图基础上,通过联合训练方法利用无标注数据提高模型的泛化能力,减少对标注数据集的依赖,并缓解单视图学习能力不足的问题,对社交网络中垃圾广告用户及垃圾信息进行甄别与处理。
2.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法,其特征在于,平均路径长度:描述网络中结点间的平均分离程度,即网络有多小,d(i,j)表示结点i和结点j之间的最短路径长度,对整个网络平均路径长度APL定义如下:n表示结点数量。
3.根据权利要求1所述社交大数据平台垃圾广告用户精准识别方法,其特征在于,中心性特征:
(1)度中心性:基于社交文本,在有向图G=(V,E)中,度中心性计算方法是:
其中|V|是图结点数, 和 分别是i结点的入度和出度,maxjdj是对一个结点的度中心性做归一化处理以便不同的网络之间中心性具有可比性,对一个用户的自核心网络中每个结点都计算度中心性然后加和平均,以量化整个网络的度中心性特征;
(2)特征向量中心性:结合无相图中的相邻结点的重要性来量化中心性,计算个人中心网络整个网络的特征向量中心性,具体计算个人中心网络中的每个结点的特征向量中心性然后累加求平均,特征向量中心性计算方法如下:其中,图的邻接矩阵A表示相邻结点,设cev(i)表示结点i的特征向量中心性,它是关于其相邻结点的函数,λ是矩阵A对应的特征值;
(3)中间中心性:计算其它结点连接中通过结点v的最短路径的数目:
其中G(E,V)是一个网络,σst是从结点s到结点t最短路径的数目,σst(vi)是最短路径中有通过结点vi的最短路径数目,度量的是结点(vi)在结点s到结点t路径中的作用,对其进行归一化处理,然后累加求平均得到量化整个网络的中间中心性特征BC(G);
(4)接近中心性:与网络中其它结点之间有最小的平均最短路径,计算方法如下:
其中, 是结点vi到其他结点之间的最短路径的平均值,这个值越小,
此结点中心性就越高与其他结点就越接近。