欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113877021
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述方法包括以下步骤:

1)攻击者针对网络系统状态信息的缺失,建立基于信念的连续零和随机博弈模型,给出攻击者的最优稳态策略;

2)入侵检测系统作为信息优势方,建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略;

3)使用一种基于深度强化学习的算法,求解出攻击者和入侵检测系统的最优稳态策略。

2.如权利要求1所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤1)中,建立基于信念的连续零和随机博弈模型,攻击者的纯动作集合为αa=i代表攻击者使用 中相应的某一攻击类型i,其相应给定的攻击代价为ca(i)>0,入侵检测系统的有限检测库集合为 其中,每个库li会以一定的概率 检测到攻击类型αa,加载一个库li也有其相应给定的代价 入N

侵检测系统通过加载不同的库来检测不同的攻击类型,定义Fi,i∈{1,2,...,2}表示入侵检测系统对于库的不同配置;入侵检测系统的纯动作集合为 纯动作表示选择具体的某一配置,因此执行纯动作αd的代价为 若入侵检测系统执行纯动作αd,则识别到攻击类型αa的概率为 定义集合表示网络系统3种状态的集合,其中S1,S2,S3分别代表网络系统的健康,受损,故障3种状态,在状态Sk下,若攻击类型αa未被入侵检测系统检测到,则会对网络系统造成的损害表示为D(Sk,αa),定义在状态Sk下,入侵检测系统选择纯动作αd,攻击者选择攻击类型αa,攻击者的收益,也即入侵检测系统的损失为网络系统的不同状态之间会以一定的概率进行相互转移,定义网络系统的状态转移矩阵为

其中, 表示在纯动作{αd,αa}下,网络系统从状态Si转移到状态Sj的转移概率;

给出攻击者的最优稳态策略,基于信念的连续零和随机博弈模型使用五元组描述,模型设定如下:

1.1) 是博弈的参与者集合, 代表加权入侵检测系统,a代表攻击者;

1.2) 是对 联合概率分布的集合,Δ表示对于一个集合的概率测度空间,×表示笛卡尔积, 表示加权入侵检测系统的纯动作集合,分别表示加权入侵检测系统和攻击者的概率动作集合, 是联合概率动作, 为加权入侵检测系统的概率动作, 为攻击者的概率动作;

1.3) 是信念状态集合,是对于集合 的联合概率分布,t时刻攻击者的信念为Bt,通过式(3)更新出在t+1时刻的信念Bt+1, 分别表示在t时刻,攻击者观测到的纯动作;

其中 由式(2)得到;

1.4)T是信念状态的转移概率:T(b′|b,a)表示当前时刻,信念状态为b∈B,攻守双方的联合概率动作为a∈A的条件下,下一时刻转移到信念状态b′∈B的概率, 表示加权入侵检测系统执行纯动作的概率,aa(αa)攻击者执行纯动作αa的概率;

1.5) 是一步回报集合,其中,ri(Bt=b,At=a)是参与者i在t时刻状态Bt=b下采取联合概率动作At=a的一步回报,给出攻击者和加权入侵检测系统的一步回报分别为

rd(Bt=b,At=a)=‑ra(Bt=b,At=a)                             (6)其中, b(j)表示系统状态j的概率;

1.6)定义加权入侵检测系统和攻击者的目标函数:其中,b0为初始信念,0<ρ<1是折扣因子,π(b)是根据当前信念状态b,加权入侵检测系统和攻击者的稳态策略,每个参与者的目标都是最大化自己的目标函数,最优稳态策略求解问题也就是找到稳态鞍点均衡,即最优稳态策略 满足式(8),即为攻击者的最优稳态策略;

其中,

1.7)给出攻击者的最优状态值函数为给出攻击者的最优状态‑动作值函数为其中, 表示对所有 和αa组合的累加,转移概率 表示当前时刻信念状态为b,联合概率动作为a,加权入侵检测系统和攻击者的纯动作分别为 αa的条件下,下一时刻信念状态转移到b′的概率。

3.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤2)中,入侵检测系统建立具有连续性和离散性的混合状态的Markov决策过程,给出入侵检测系统的最优稳态策略,该决策过程可以用一个四元组 描述,包括以下步骤:

2.1) 是联合概率动作集合, 表示入侵检测系统的概率动作集合;

2.2) 是混合状态集合;

2.3) 是混合状态的转移概率:表示在当前时刻,混合状态为u,u={s,b}∈U, b∈B,攻守双方的联合概率动作为 的条件下,下一时刻转移到混合状态u′的概率,u′={s′,b′}∈U, b′∈B, 是定义在(2)状态转移矩阵中(s,s′)对应的元素,ad(αd)表示入侵检测系统执行纯动作αd的概率;

2.4)入侵检测系统的一步回报为:

2.5)定义入侵检测系统的目标函数:其中,u0为初始混合状态,0<ρ<1是折扣因子,ζd(u)是根据当前混合状态u,入侵检测系统的稳态策略,入侵检测系统的目标是最大化自己的目标函数,入侵检测系统的最优稳态策略由(13)得到,记为

2.6)给出入侵检测系统的最优状态值函数为给出入侵检测系统的最优状态‑动作值函数为其中α={αd,αa}, 表示对所有αd和αa组合的累加, 为根据式(8)得到的策略做出的最优概率动作, 转移概率 表示当前时刻信念状态为b,联合概率动作为 入侵检测系统和攻击者的纯动作分别为αd,αa的条件下,下一时刻信念状态转移到b′的概率。

4.如权利要求2所述的基于非完全信息的入侵检测系统最优稳态策略求解方法,其特征在于,所述步骤3)中,使用一种基于深度强化学习的算法,找到攻击者和入侵检测系统的最优稳态策略,包括以下步骤:

3.1)只要得到入侵检测系统和攻击者的最优状态‑动作值函数,就可以得到双方在不同状态下的最优稳态策略,考虑到信念状态的连续性,使用如下深度Q学习算法来求解最优状态‑动作值函数,过程为:

3.1.1.初始化容量分别为Ca,Cd的记忆库Ma,Md;

3.1.2.分别随机初始化Q网络 和Qd(b,α;σd)的权重σa,σd;

3.1.3.分别初始化目标网络 的权重,

3.1.4.设置初始状态为b1∈B, u1={s1,b1};

3.1.5.对于t=1,2,...执行以下循环:

3.1.6.对于t时刻的信念状态bt,找到当前时刻攻击者和加权入侵检测系统的策略;

3.1.7.对于t时刻的混合状态ut和攻击者的策略,找到当前时刻入侵检测系统的策略;

3.1.8.根据ε‑greedy政策选择纯动作 αd,t;

3.1.9.观测到系统状态st+1,计算t时刻的 记为

3.1.10.根据(3)算出t+1时刻的信念状态bt+1,设置混合状态ut+1={st+1,bt+1};

3.1.11.把当前的经历 分别存储在记忆库Ma,Md中;

3.1.12.随机分别从记忆库Ma,Md抽取若干条记忆

3.1.13.令

2

3.1.14.对于 [zd,l‑Qd(ul,αl;σd)]执行梯度下降法训练Q网络的权重σa,σd;

3.1.15.每过D步以后,把Q网络的权重赋给目标网络

3.1.16.循环结束;

所述3.1.8中, 分别为攻击者在t时刻观测到的纯动作,αd,t为入侵检测系统在t时刻实际执行的纯动作;3.1.12到3.1.14中,下标j,l表示随机抽取到的某一时刻j,l;

3.1.13中, 表示j+1时刻所有纯动作 和α′a组合的累加, 表示l+1时刻所有纯动作α′d和αa′组合的累加;3.1.14中,权重σa,σd的更新公式为:其中0<γ≤1是步长因子,下标k表示抽取的若干记忆执行梯度下降法时的迭代次数,和 分别表示 Qd(u,α;σd,k)的梯度;

3.2)当训练好神经网络后,使用Q网络 和Qd(b,α;σd)分别估计出最优状态‑动作值函数 针对不同的信念状态b,使用线性规划即能够得到攻击者的最优稳态策略 然后入侵检测系统通过 求解最优化问题(13)得到最优稳态策略