1.一种基于深度强化学习的MEC任务卸载和资源分配方法,其特征在于,包括以下步骤:S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;
所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变;每个用户可以选择将其部分计算任务卸载到云服务器,余下的留在本地完成;或部分计算任务卸载到移动边缘计算服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以自己执行任务,执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行;
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1‑αn‑βn‑γn,且满足αnβnγn=0,S2:针对三层的卸载场景,计算系统总体开销;
所述计算系统总体开销具体步骤为:
在用户选择本地卸载时,设 为本地计算能力,kn是与设备有关的常量,计算能耗基本与CPU频率成正比;因此本地执行时间为 能耗为当D2D卸载执行时,设 表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率;考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声;根据香农公式,上行速率为其中,若αn>0则 取1,因此,传输时延为 传输能耗为设 表示D2D的计算能力,则计算时延为 计算
能耗为 kd是与硬件有关的常量;因此,D2D执行时间为执行能耗为
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数分配带宽为 满足 而MEC执行卸载时延可分为三部分,传输时延 、等待时延 和计算时延 ;传输时延为 其中hn,m为设备n到MEC服务器的信道增益;设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率;队列中等待时间为 其中Nj为在第j个时隙内的全部任务数,Nj‑L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数 任务的平均进入率 传输能耗为计算时延为 计算能耗为
km是与硬件有关的常量;则
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到;忽略云端计算耗时,总时延即为传输时延加上Tcore;传输时延为其中 hn,c为设n到云的信道增益, 为上行带宽;传输能耗为因此云执行时总时延为 能耗为
综合 考虑 ,设备的 执行 时延 为 能耗 为目标函数为 设 a,
b∈(0,1)分别代表用户n执行时间和能量消耗的权重系数;
S3:以最小化系统开销为优化目标,构建深度强化学习模型;
所述构建深度强化学习模型具体步骤为:
采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法;
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数;
L D M
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[F (t),F(t),D(t),F(t)];其中 和 分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵;D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵; 和Dn(t)分别代表在决策时刻t终端设备n的本地计M
算能力、相关边缘D2D节点的计算能力以及任务数据大小;F(t)代表MEC服务器在决策时刻t的可用计算资源;
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决M M策;动作空间可定义为at∈At=[α(t),β(t),γ(t),F (t),B (t)];其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵;αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例;对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1);计算资源分配决策为 带宽资源分配决策为 其中, 和 分别代表在决策时刻t
分配给终端用户n的MEC计算资源和带宽;
定义回报函数为
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和;
S4:提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络参数分别为ψ和 此外,建立了两个状态动作值函数网络 参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的 状态和动作的分布,软状态值函数的目标函数为梯度可
以用无偏估计量 来估计;通过梯度下降
法更新网络参数ψ,使平方残差即值函数网络的估计值与真实值之间的偏差最小;目标状态值函数网络 的参数 通过软更新方法进行更新,更新方式为 接下来训练状态动作值函数网络的参数θi,其目标函数为其中JQ(θi)同样采用随
机梯度 来优化,使Bellman残
差最小;更新过程中使用目标状态网络 以切断相关性;
步骤3:网络参数的梯度更新
采用梯度下降法,通过最小化期望KL散度来更新策略网络的参数φ(),策略网络的目标函数可表示为用式 来近似
梯度,通过随机梯度法下降法进行更新;
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。