1.一种广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,包括:获取网络入侵数据集,并对所述网络入侵数据集进行聚类;其中,所述网络入侵数据集包括多条数据记录;
将聚类后的所述网络入侵数据集输入到预先训练好的基于特征选择的广义逆狄利克雷混合HMM模型中进行学习;其中,所述广义逆狄利克雷混合HMM模型的模型参数利用Variational Bayes学习方法进行估计;
获取由广义逆狄利克雷混合HMM模型输出的网络入侵数据集对应的特征相关性,并对特征相关性进行特征选择;
对经过特征选择后的网络入侵数据集的每个数据记录,获取其对应的广义逆狄利克雷混合HMM模型的输出概率,并把输出概率最大的那一类识别为该数据记录的类型,以作为所述数据记录是否是网络入侵数据的判断依据。
2.根据权利要求1所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,还包括:建立基于特征选择的广义逆狄利克雷混合HMM模型;其中,建立的广义逆狄利克雷混合HMM模型的模型参数表示为γ={ρ,S,B,Λ};ρ为状态的初始概率矩阵,且 表示在从状态i开始的概率N为模型的状态数;S为状态转移矩阵,且 表示从状态i到状态j转换的概率;B为混淆矩阵,且 表示第i个状态下第k个混合广义逆狄利克雷的概率,K为模型在某一状态下的混合组件数;Λ={αβ, ,α′,β′}为广义逆狄利克雷分布的参数,且对模型参数进行初始化;
利用Variational Bayes学习方法对模型参数进行估计。
3.根据权利要求2所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,所述利用Variational Bayes学习方法对模型参数进行估计具体为:S1,记观察的网络入侵数据集为X(X1,X2,...,XT),隐状态为Y(Y1,Y2,...,YT),观测值的潜在变量对应的组件序列为O={O1,O2,...,OT},模型参数为γ={ρ,S,B,Λ},不同特征在不同分量中的重要性用z={ztikd}表示;
S2,对每一个数据记录Xtd都有:
S3:定义先验概率z为:
S4,建立基于特征选择的广义逆狄利克雷混合HMM模型的全概率函数:其中,
S5:将模型参数ρ,S,B的共轭先验分布设为狄利克雷分布:S6:求后验分布p(Y,O,z,γ|X)的近似q(Y,O,z,γ);
S7:确定q(Y,O,z,γ)变分的形式:
q(Y,O,z,γ)=q(Y)q(O)q(z)q(γ) (8)S8:通过将所有变量积分为来获得对数边际概率:
ln p(X)=∫q(Y,O,z,γ)lnp(X,Y,O,z,γ)dYdOdzdγ-∫q(Y,O,z,γ)lnp(Y,O,z,γ|X)dYdOdzdγ=KL(q||p)+F(q) (9)S9:根据F(q)是p(X)的下界,对q(Y,O,z,γ)的变分求解:S10:,分别对q(ρ),q(S),q(B),q(z),q(Λ)进行逐个优化,以最大化F(q);
S11:通过参数ρ,S,B计算mρ,mS,mB:
S12:更新关于z的超参数
S13:更新α,β的超参数u*,v*,g*,h*:
S14:根据式(16)-(21),更新α′,β′的超参数u′*,v′*,g′*,h′*;
S15:更新ρ,S,B的超参数:
S16:更新参数ρ,S,B:
S17:计算似然估计Ω:
S18:重复S11-S17,直至模型参数收敛。
4.根据权利要求1所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,所述获取由广义逆狄利克雷混合HMM模型输出的网络入侵数据集对应的特征相关性,并对特征相关性进行特征选择,具体为:获取由广义逆狄利克雷混合HMM模型输出的网络入侵数据集对应的特征相关性;其中,每个数据记录与其对应的特征的维度相同;
根据设定的阈值,判断每条数据记录下特征的相关性:其中,若输出第v个数据记录下的第d个特征向量的相关性小于或等于阈值,则删除数据集中第v个数据记录下对应的第d个特征向量;若大于所述阈值,则保留数据集中第v个数据记录下对应的第d个特征向量。
5.根据权利要求1所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,对经过特征选择后的网络入侵数据集的每个数据记录,获取其对应的广义逆狄利克雷混合HMM模型的输出概率,并把输出概率最大的那一类识别为该数据记录的类型,具体为:将经过特征选择后的网络入侵数据集输入训练好的基于特征选择的广义逆狄利克雷混合HMM模型;其中,记网络入侵数据集的观察序列为X(X1,X2,...,Xn);
计算初始值,t=1时刻状态为i的概率为φ1(i)=ρibi(Xi);
计算t=t+1时刻,状态为j的所有单个路径(i1,i2,...,it)中概率的最大值:以此类推,求出输出概率
把输出概率最大的那一类识别为该数据记录的类型。
6.根据权利要求5所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,还包括:将识别出的数据记录的类型与该数据记录的的真实标签进行对比,得到识别结果。
7.根据权利要求5所述的广义逆狄利克雷混合HMM模型的网络入侵检测方法,其特征在于,所述阈值为0.3。
8.一种广义逆狄利克雷混合HMM模型的网络入侵检测装置,其特征在于,包括:聚类单元,用于获取网络入侵数据集,并对所述网络入侵数据集进行聚类;其中,所述网络入侵数据集包括多条数据记录;
学习单元,用于将聚类后的所述网络入侵数据集输入到预先训练好的基于特征选择的广义逆狄利克雷混合HMM模型中进行学习;其中,所述广义逆狄利克雷混合HMM模型的模型参数利用Variational Bayes学习方法进行估计;
特征选择单元,用于获取由广义逆狄利克雷混合HMM模型输出的网络入侵数据集对应的特征相关性,并对特征相关性进行特征选择;
识别单元,用于对经过特征选择后的网络入侵数据集的每个数据记录,获取其对应的广义逆狄利克雷混合HMM模型的输出概率,并把输出概率最大的那一类识别为该数据记录的类型,以作为所述数据记录是否是网络入侵数据的判断依据。