欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016110166727
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于模糊多类SVM的微博垃圾用户检测方法,包括以下步骤:

步骤一,根据微博的行为模式将垃圾用户分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3,并根据所述三类垃圾用户得到微博垃圾特征V;

步骤二,根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U;

步骤三,根据S1、S2和S3三类垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D;

步骤四,对S1、S2和S3三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析,分别画出S1、S2和S3的社会关系特征以及微博活跃性特征的CDF曲线,利用CDF曲线,寻找每一类垃圾用户有区分度的特征向量集V1、V2、V3;

步骤五,通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3,从三组训练样本集中分别提取广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3作为训练样本特征,然后根据一对多SVM分类算法,得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,将C1、C2和C3构建为多类微博垃圾用户检测分类器C;

步骤六,将待检用户作为输入样本通过C1、C2和C3三个分类器时,每一个分类器都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论,输出检测结果。

2.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述微博垃圾特征V为,V=[粉丝数量,关注数量,微博创建天数,微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率,微博被转发概率,平均每条微博被评论次数,平均每条微博被转发次数,单条微博被转发次数最大值,单条微博被评论次数最大值]。

3.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3分别为:V1=[关注数量,粉丝数量,平均每天微博数量,平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数];

V2=[关注数量,粉丝数量,平均每天微博数量,重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量];

V3=[关注数量,关注数/粉丝数,平均每天微博数量,微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。

4.根据权利要求1或2或3所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述步骤六具体步骤为:S1:输入待测数据;

S2:待测数据通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1,R1表示广告型垃圾用户的判断结果;

S3:待测数据通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1,R2表示重复转发型垃圾用户的判断结果;

S4:待测数据通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1,R3表示过度关注型垃圾用户的判断结果;

S5:对R1,R2,R3进行模糊推理;

S6:输出模糊处理后的判定结果。

5.根据权利要求4所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述模糊推理的过程为,分别计算广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E),如果D1(E)、D2(E)、D3(E)都小于0,则将与待测数据对应的输入样本归为正常用户;如果D1(E)、D2(E)、D3(E)只有某一个Di(E)>0,则将输入样本归入该类垃圾用户;对于其余情况,采用高斯隶属函数的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E),将输入样本归入D′1(E)、D′2(E)、D′3(E)中的最大值所属垃圾用户类别。

6.根据权利要求5所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述高斯隶属函数为 c表示某类聚类中心,σ为常数,x表示元

素自变量。