欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018101528874
申请人: 东北电力大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于支持向量机的过滤‑封装式组合流量特征选择方法,其特征是,它包括的内容有:

1)初次过滤式特征选择法

将原始数据集进行预处理生成数据集S0,进行初次过滤式特征选择,采用基于熵的一种评估法,即为信息增益(Information Gain,IG)算法对分类有贡献的每一个特征的信息增益进行性能评估,变量具有的信息量越多,熵值越大,若类特征变量S(s1,s2,...sn)对应出现的概率为P(p1,p2,...pn),则S的熵为公式(1),属性特征W的信息增益是具有特征W和不具有特征W的信息量差,信息增益为公式(2),P(Si)为类S出现的概率,P(Si|w)为属性特征w同时属于类别Si的条件概率, 为不出现属性特征w同时属于类别Si的条件概率,信息增益IG(W)值越大,说明特征W对分类的贡献越大,将特征属性与类相关的信息增益进行排序,信息增益值越高的特征属性,代表其对分类的贡献越大,根据公式(2)每一个流量特征的信息增益值,引入启发式单独最优特征选择搜索策略对特征信息增益值进行排序,将阈值δ<0的特征筛除,构成目标特征子集F1;

引入的启发式单独最优特征选择搜索策略为:输入原始特征集F0,同时对目标特征子集F1进行初始化,根据公式(2)计算每个特征wi的信息增益(IG)值,对每个特征wi在特征集合F0中进行搜索并根据特征的信息增益(IG)值进行排序,当信息增益(IG)值小于或等于设定阈值δ时,则删除该特征wi,进行下一个特征的搜索,当信息增益(IG)值大于设定阈值δ时,将搜索到的特征wi选入目标特征子集F1,循环搜索过程,直到搜索到特征集F0中最后一个特征wm,搜索过程结束,输出最终目标特征子集F1;

2)二次封装式特征选择法

在经过初次过滤式特征选择后的目标特征子集F1及数据集S1上,进行封装式二次特征选择,基于支持向量机(SVM)学习算法,引入改进的启发式序列前向搜索策略,再次选择出具有高分类准确率的最优特征子集F2,最终将过滤‑封装式组合特征选择模型选出的最优特征子集F2构成的数据集S2分成训练集与测试集,基于支持向量机(SVM)分类器训练,在测试集上得到网络流量分类结果,

其中,基于支持向量机(SVM)多分类器构造法采用构造n类二分类器,每类分类器基于二值分类规则,识别两个类别,最后将判别结果组合实现多类分类,具体步骤:①构造n个二分类规则,设二分类规则fk(x),k=1,···,n,其中,f(x)=ω·x+b,且ω·x+b=0为SVM的分类方程,将第k类的训练样本与其它类别样本分离,若xi为第k类样本,则sgn[fk(xi)]=

1,否则sgn[fk(xi)]=‑1,②确定fk(x),k=1,···,n中最大值所属于的类别,m=argmax{f1(xi),···,fn(xi)};由步骤①和②就能构造多类分类器并可对n类数据样本进行分类,已知训练样本集 其中上标n表示向量为第n类,则需要分类面满足不等式(3),分类平面为公式(4),其中,αi为拉格朗日乘子,基于公式(4),支持向量机(SVM)的多分类器构造采用一对一组合(one against one)法构造 个分类器解决多分类问题,假设每个分类器的训练数据分别来自第i层和第j层,如公式(5),其中,C为惩罚因子,ξ为引入的松弛变量,φ(x)为将原始低维空间样本映射到高维特征空间中的非线性映射,

当 个分类器构造完成后,在后期的分类器训练中采用投票方式,如果sgnij T ij

[(ω ) φ(x)+b ]代表x样本数据属于第i层,则投票将第i层数据加一,否则第j层数据加一,投票结束后,x样本数据属于的那一层投票结果值最大;

二次封装式特征选择法引入改进的启发式序列前向选择搜索策略是从空集出发,每次将能使候选子集的分类器准确率最高的一个或若干个特征增加到当前特征候选子集F2'中,直到特征数超出特征总个数时结束,即从初始特征空间空集开始,每次从过滤式特征选择后的目标特征子集F1中挑选m个特征增加到当前候选特征子集F2'中,经过若干次循环筛选,生成新的最优特征子集F2,直到满足约束条件为止,使得当搜索最大直径为N时,计算复杂度为O(N),减少了搜索的计算代价,得到近似最优特征子集。