1.一种基于深度强化学习的任务卸载方法,其特征在于:根据获取的用户信息构建任务队列模型,根据任务队列模型得到用户的卸载任务量;设定任务卸载约束条件,根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站;采用有限状态马尔可夫模型模确定系统的无线信道,通过信道的信噪比表征信道状态,根据信道状态确定任务卸载的传输成本;构建任务卸载系统模型,通过任务卸载系统模型以及任务卸载的传输成本确定最小化系统成本的优化问题;采用DDPG模型求解最优的任务卸载和资源分配策略;
其中,MEC表示移边缘计算,DDPG表示深度强化学习模型。
2.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务队列模型Θi为:其中,Qj(t)、bj(t)、γj和 分别表示移动用户j在时隙t的开始等待处理的任务量、移动用户j在时隙t卸载的任务量、移动用户j的计算密度、移动用户j的最大容忍计算时间。
3.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务卸载约束条件包括:其中, 表示移动用户j是否卸载以及卸载到哪,t表示时隙的索引,当 表示移动用户j选择模式i执行计算任务计算;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示通过SBSi执行计算任务,MBS表示宏基站,SBSi表示第i个小基站;bj(t)表示用户j的任务卸载量, 表示移动用户j的最大任务卸载量, 表示队列的稳定性,U表示用户数量。
4.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述通过信道的信噪比表征信道状态的过程包括:将与每个基站相连的无线信道的SNR的值范围划分为d个非重叠等级,即{SNRn,n=1,
2,...,d},其中SNRn表示SNR的一个等级;用户j在时隙t随机选择的SNR的样本空间Ωj(t)表示为 所有用户在时隙t的样本空间的笛卡尔积为:其中,SNR表示信道的信噪比,Ω(t)表示所有用户在时隙t的样本空间的笛卡尔积,Ωj(t)表示移动用户j在时隙的样本空间。
5.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述确定最小化系统成本的优化问题的过程包括:确定用户j的计算决策 当 表示移动用户j选
择模式i执行计算任务, 表示其他;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示SBSi执行计算任务;
根据计算决 策、选择的 计算模式以 及 用户信息确定 卸载决策向 量计算每个用户j的卸载决策到目标服务器的任务量 其中 表示
移动用户j在本地执行计算的任务量;根据任务量求出系统的通信成本和计算成本;对通信成本和计算成本进行优化,求出最小成本;
其中, 表示用户数量, 表示移动用户j选择的计算任务,MBS表示宏基站,SBSi表示第i个小基站, 表示所有用户的集合, 表示所有基站的集合, 表示每个用户j具体决策卸载多少任务量。
6.根据权利要求5所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述获取通信成本的过程包括:其中, 表示移动用户j在时隙t传输计算任务的通信成本,αi表示用户与基站i之间每单位时间的传输数据成本, 表示用户j到基站i的传输时延, 表示用户j与基站i之间的传输速率,Bi表示基站i分配给用户的带宽, 表示在时隙t时用户j与基站i之间的SNR随机变量。
7.根据权利要求5所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述本地计算包括:其中, 表示用户j在时隙t本地计算消耗的能耗, 表示用户j本地计算每cpu频率消耗的能耗, 表示用户j本地计算执行的任务量,γj表示移动用户j的计算密度,表示用户j在时隙t本地计算的时延, 表示用户j的计算能力;
所述边缘计算包括:计算用户传输计算任务到基站的时延 和能量消耗
用户的边缘计算时间为 则总的边缘计算时间为户传输计算任务到基站的时延与用户的边缘计算时间和;总的边缘计算消耗的能量为用户传输计算任务到基站的能量消耗与边缘计算的能量消耗的和。
8.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述最小化系统成本的优化问题为:其中, 表示用户j选择计算的模式, 表示用户j卸载任务到MEC服务器i的过程中的能量消耗, 表示移动用户j在时隙t传输计算任务的通信成本, 表示用户j任务卸载过程中的的计算成本, 表示本地执行过程中的能量消耗, 表示系统时间平均成本开销,T表示时隙的总长度,sup函数为求最小上界的函数, 表示求期望,C(t)表示系统成本开销。
9.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述DDPG模型包括:系统状态空间 动作空间 系统奖赏函数所述系统状态空间 包括:
s(t)=(SNR0(t),SNR1(t),...,SNRN(t),Q1(t),...,QU(t))
其中, SNRi(t)表示基站i在时隙t的通信链路的信噪比,Qi(t),表示移动用户j在时隙t的队列积压任务量;
所述动作空间 包括:
A(t)=(a1(t),a2(t),...,aj(t),...,aU(t),b1(t),b2(t),...,bj(t),...,bU(t)
f1(t),f2(t),...,fj(t),...,fU(t))
其中 表示移动用户j选择计算的模式,
表示移动用户j选择模式i计算,bj(t)表示用户i在时间片t从队列中卸载的任务量,fj(t)表示分配给移动用户j的计算资源;
所述系统奖赏函数 包括:
其中, 表示用户j卸载任务到MEC服务器i的过程中的能量消耗, 表示移动用户j在时隙t传输计算任务的通信成本, 表示用户j任务卸载过程中的的计算成本, 表示本地执行过程中的能量消耗, 表示本地执行过程中的能量消耗。
10.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述求解最优的任务卸载及计算资源分配策略的过程包括:在进行任务的卸载过程中每个状态-动作对对应相应的行动值函数,也称作Q函数,采用卷积神经网络对Q函数进行模拟,得到Q网络,其中Q网络的参数为θμ;采用另一个卷积神经网络对策略π进行模拟,得到策略网络,其中策略网络的参数为θQ;将获取的样本数据保存为四元组的形式并存储到样本池;在样本池中随机抽取小批量样本数据对策略网络μ Q
进行训练,计算参数θ和θ的最优解,得到最优的任务卸载;根据最优的的任务卸载分配资源;
其中,s(t)表示系统当前的状态,a(t)表示采用的动作, 表示获得的奖赏,s(t+1)表示转移的下一个状态,θθ表示Q网络网络参数,θQ表示策略网络的参数。