1.一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于:该方法包括以下步骤:S1:导入网络入侵检测数据集,数据集中的特征包括网络连接持续时间、协议类型、目标主机的网络服务类型、连接状态、源地址到目标地址的数据流量、目标地址到源地址的数据流量、错误分段的数量;
S2:采用独热编码处理离散型特征,采用数值标准化处理连续型特征;
S3:初始化参数,采用基尼Gini指数对特征子集进行过滤,剔除冗余特征,选择最优特征;
S4:将步骤S3筛选后的全部特征作为完整的特征空间,采用基于支持向量机的分类器作为自适应遗传算法中适应度函数的计算与特征选择结果性能的评价;
S5:采用最大迭代次数作为算法终止条件,在此基础上当适应度函数值达到指定阈值时,将提前终止迭代;
S6:当迭代结束时得到最优特征子集,将最优特征子集中的特征输入入侵检测算法,完成入侵检测。
2.根据权利要求1所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,导入全部特征子集的过程包括:输入实例x的特征向量记作x=(x(1),x(2),...,x(i),...,x(n))T,给出训练用的训练样本集:T={(x1,y1),(x2,y2),...,(xi,yi),...,(xN,yN)};其中,x(i)表示x的第i个特征,xi表示多个输入变量中的第i个。
3.根据权利要求2所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,采用数值标准化处理连续特征包括:其中, 表示第i个特征数值标准化后的值,x(i)表示x的第i个特征,μx是训练集对应特征列的平均值,σx是对应特征列的标准差。
4.根据权利要求3所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,初始化Gini-GA参数包括:假设有k个类,对于给定的样本集合D,其基尼指数为:其中,ck是D中属于k个类中的的样本子集,k是样本的个数;|·|表示集合中样本的数量。
5.根据权利要求4所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,若样本集合D根据特征A是否取某一可能值a被分割成D1、D2两部分,即D1={(x,y)∈D|A(x)=a}、D1=D-D1,那么在此情况下集合D的基尼系数定义为:
6.根据权利要求1所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,所述自适应遗传算法具体方法为:
501、自适应遗传算法的种群个体采用二进制编码,一个染色体表示一个特征子集,则染色体可以表示为g={g1,g2,...,gi,...,gn};其中gi=0表示删除该属性,gi=1表示选择该属性;
502、采用封装器模式的评价函数,计算出当前种群中每一个个体的适应度函数值;
503:当自适应遗传算法迭代次数达到100或适应度函数值达到99.9%时,算法终止转
507;
504:采用锦标赛选择算法按照个体适应度值的大小进行选择操作;
505:采用单点交叉与单点变异策略进行交叉和变异操作;
506:如果由N个新个体组成的新一代群体已经产生,则转502;否则,转504;
507:输出搜索结果,算法终止。
7.根据权利要求5所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,个体的适应度函数值的计算包括将基于SVM分类器的检测率作为特征子集评价函数的因子表示为:F(x)=D(x);
其中,D(x)为x染色体的SVM分类器的检测率。
8.根据权利要求5所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,采用单点交叉与单点变异策略进行交叉和变异操作,其中每个个体的交叉概率Pc与变异概率Pm表示为:其中,fmax为每代群体中最大的适应度值;favg为每代群体的平均适应度值;f'为交叉的
2个个体中较大的适应度值;f为变异个体的适应度值;Pc1、Pc2分别为第一交叉率参数和第二交叉参数;Pm1、Pm2分别为第一变异率参数和第二变异率参数。