1.一种组合型类不均衡流量分类的特征选择方法,其特征在于,包括:S1:对网络流量样本数据进行统计得到统计结果,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值;
S2:根据所述统计结果计算网络流量类别与各属性特征之间的相关度,并基于所述相关度从多个属性特征中进行筛选得到第一目标特征集合;
S3:将第二目标特征集合初始化为空集;
S4:计算所述第一目标特征集合中每一属性特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的属性特征加入所述第二目标特征集合;
S5:针对所述第一目标特征集合中当前未选入所述第二目标特征集合中的每一未入选属性特征,分别将其与当前所述第二目标特征集合中的属性特征进行匹配,得到与每一未入选属性特征对应的组合特征;
S6:计算各组合特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的未入选属性特征加入所述第二目标特征集合;
S7:判断所述第二目标特征集合中的属性特征的数量是否达到预设数量阈值,如是,转至S8,否则,转至S5;
S8:将当前所述第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。
2.如权利要求1所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述网络流量样本数据为Moore公开数据集中的数据。
3.如权利要求2所述的组合型类不均衡流量分类的特征选择方法,其特征在于,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值。
4.如权利要求1所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S2中通过公式 计算网络流量类别与每一属性特征之间的相关度,其中,X表示网络流量类别,Y为一种属性特征,
IGw(X|Y)=Hw(X) -Hw(X|Y),
p(xi,yj)表示网络流量类别X为xi与属性特征Y取值为yj的联合概率,p(xi)表示网络流量类别X取xi的概率,p(yj)表示属性特征Y取值为yj的概率,p(xi|yj)表示属性特征Y取值为yj的条件下网络流量类别X为xi的概率, N为网络流量样本数,ni为网络流量样本中类别xi对应的样本数。
5.如权利要求4所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S2包括:S21:将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较;
S22:筛选出相关度大于相关度门限阈值δ的属性特征。
6.如权利要求5所述的组合型类不均衡流量分类的特征选择方法,其特征在于,在步骤S22之后,还包括:S23:将网络流量类别X与步骤S22中筛选出来的各属性特征fm之间的相关度按照从小到大的顺序排列,并依次计算每个属性特征fm与排序中小于WSU(X,fm)的其他所有属性特征fn之间的相关度;
S24:针对步骤S22中得到的属性特征,如果WSU(fm,fn)>WSU(X,fn),则删除对应的fn,从而得到所述第一目标特征集合。
7.如权利要求6所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S23中通过公式 计算属性特征fm与属性特征fn之间的相关度,其中,
IGw(fm|fn)=Hw(fm)-Hw(fm|fn),
Hw(fm|fn)=Hw(fm ,fn)-Hw(fn),
p(f′im,f′in)表示属性特征fm的取值为f′im,属性特征fn的取值为f′in的联合概率,p(xi,f′im,f′in)表示在类别xi中属性特征fm的取值为f′im,属性特征fn的取值为f′in的联合概率,p(xi,f′in)表示网络流量类别X取xi与属性特征fn的取值为f′in的联合概率,p(xi,f′im)表示网络流量类别X取xi与属性特征fm的取值为f′im的联合概率,p(f′in)表示属性特征fn的取值为f′in的概率,p(f′im)表示属性特征fm的取值为f′im的概率,f′in表示类别xi下属性特征fn的取值,f′im表示类别xi下属性特征fm的取值。
8.如权利要求1-7任一项所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S4中通过公式 计算所述第一目标特征集合中每一属性特征的特征评估函数值FDR,其中,X表示网络流量样本所含的类别,μi和μj分别表示第i类和第j类的类内特征向量均值,σi2和σj2分别表示第i类和第j类的类内方差。