欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018108902670
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的网络拥塞链路诊断方法,其特征在于,包括如下步骤:S1、对待诊断的网络收集实际链路拥塞状态数据M份,以得到链路拥塞状态网络有向无环图M张,作为样本池;M为大于1的整数,所述链路拥塞状态网络由一个有向无环图表示G=(V,E),其中V={0,1,2,…,k,…,m}为网络节点集合,E={l1,l2,…,lk,…,lm}为链路集合,而链路lk则表示端节点为k的链路,网络中所有路径的集合定义为P={p1,p2,…,pi,…,pn},对应的路径拥塞状态观测集合定义为Y={y1,y2,…,yi,…,yn},其中第i条路径pi的拥塞状态为yi,当yi=1时,表示路径pi处于拥塞状态;而如果yi=0,则表示路径pi处于正常状态,φk表示经过链路lk的路径集合;Yk对应于φk中各路径的拥塞状态观测集合,网络中的路径状态集合为X={x1,x2,...,xk,...,xm};

S2、对每张链路拥塞状态网络有向无环图分别进行决策状态建模,一起生成状态集合S,状态s定义为链路和经过链路的路径拥塞状态集合的一个二元组,即s=sk=(lk,Yk),状态集合为S={s1,s2,s3,...,sk,...,sm},对于处于状态s=sk时,采取的动作集合为A=a,其中a=0表示猜测链路lk为正常链路,即 当a=1时,则表示猜测lk为拥塞链路,即有当真实的链路拥塞状态与猜测的链路拥塞状态相同,即当 时,将获得奖励;否则将获得惩罚;

S3、根据神经网络的训练方法DQN,所述状态集合S和对应的决策集合B作为训练数据集,进行神经网络训练,训练时每一组训练数据为一张有向无环图的状态为输入,对应的决策为输出;

S4、采用与步骤S2相同的方法,将待进行网络拥塞链路诊断的网络有向无环图进行决策状态建模,生成初始任务状态s0,将状态s0代入步骤S3训练得到的神经网络中,通过不断地迭代,自主学习网络拥塞路径与网络拥塞链路之间的关联关系,进行链路拥塞状态预测。

2.根据权利要求1所述的基于深度学习的网络拥塞链路诊断方法,其特征在于,步骤S3中DQN的目标函数构建方法如下:A1、用一个深度神经网络来作为Q值的网络,参数为ω,即通过更新ω使得Q函数逼近最π

优值:Q(s,a,ω)≈Q(s,a);式中,s表示状态,a表示决策,π为策略;

A2、在Q值中使用均方差来定义目标函数:2

L(ω)=E[(r+γ·maxQ(s′,a′,ω)‑Q(s,a,ω))];

式中,s’表示下一个状态,a’表示下一个决策,E表示期望运算,r表示奖励,γ表示衰减系数;

A3、计算参数ω关于目标函数的梯度:A4、使用SGD实现端到端的优化目标。

3.根据权利要求2所述的基于深度学习的网络拥塞链路诊断方法,其特征在于,DQN训练中,主要的步骤包括:

B1、初始化经验池D,设置容量为N,用于存储训练的样本;

B2、初始化动作‑价值函数的Q神经网络,所用权重参数θ为随机值;

B3、初始化目标动作‑价值函数的 神经网络,其结构和Q相同,且权重参数θ=θ;

B4、设定片段总数M;

B5、初始化网络输入状态s0,并且计算网络输出;

B6、以状态集合Snext={s0}作为输入集合,对网络参数进行递归更新。

4.根据权利要求3所述的基于深度学习的网络拥塞链路诊断方法,其特征在于,其中,步骤B6对网络进行递归更新的步骤包括:B61、对输入集合中的每一个状态进行动作猜测并执行网络更新,同时得到下一状态,如果下一状态为非吸收态,将其加入下一状态集合;

B62、如果下一状态集合非空,则将其作为网络递归更新的输入,继续递归,否则结束。

5.根据权利要求4所述的基于深度学习的网络拥塞链路诊断方法,其特征在于,步骤B61中对每个状态进行动作猜测执行网络更新并得到下一状态的集合的步骤包括:C1、采用ε‑greedy策略进行动作选择:以概率ε从动作集合A中随机选择一个动作作为at,否则将当前的状态输入到当前的网络中用了一次CNN计算出每个动作的Q值,选择Q值最大的一个动作作为at;

C2、执行at,得到执行at后的反馈rt和下一状态st+1;

C3、将四个参数(st,at,rt,st+1)作为此刻的状态一起存入到D中,D中存放着N个时刻的状态;

C4、随机从D中取出minibatch个状态参数组(sj,aj,rj,sj+1);

C5、计算每一个状态的目标值,具体为通过执行at后的奖励来更新Q值作为目标值:如果下一状态为吸收态,则yj=rj,否则C6、通过SGD更新参数θ;

C7、每C次迭代后更新target action‑value function网络 的参数θ为当前action‑value function的网络Q的参数θ,C为大于1的正整数。

6.基于权利要求1所述的基于深度学习的网络拥塞链路诊断方法,其特征在于,在整个基于深度学习的网络拥塞链路诊断方法中有状态集合S,策略集合C,策略π,根据当前状态来选择下一刻行为a=π(s),对于状态集合中的每一个状态s,都有相应的回报值R(s)与之对应;对于状态序列中的每下一个状态,设置衰减系数γ,对于每一个策略π,设置相应的权π 2 π

值函数V(s0)=E[R(s0)+γR(s1)+γR(s2)+K|s0=S,π]=E[R(s0)+γV(s1)]。

7.一种基于深度学习的网络拥塞链路诊断系统,其特征在于:采用权利要求1‑6任一项所述的基于深度学习的网络拥塞链路诊断方法进行网络拥塞链路诊断。