欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101901867
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的任务卸载方法,其特征在于:根据获取的用户信息构建任务队列模型,根据任务队列模型得到用户的卸载任务量;设定任务卸载约束条件,根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站;采用有限状态马尔可夫模型模确定系统的无线信道,通过信道的信噪比表征信道状态,根据信道状态确定任务卸载的传输成本;构建任务卸载系统模型,通过任务卸载系统模型以及任务卸载的传输成本确定最小化系统成本的优化问题;采用DDPG模型求解最优的任务卸载和资源分配策略;其中MEC表示移边缘计算,DDPG表示深度强化学习模型;

所述任务卸载系统模型包括通信成本模型和计算成本模型;通信成本模型包括:其中, 表示移动用户j在时隙t传输计算任务的通信成本,αi表示用户与基站i之间每单位时间的传输数据成本, 表示用户j到基站i的传输时延, 表示每个用户j具体决策卸载多少任务量, 表示用户j与基站i之间的传输速率,Bi表示基站i分配给用户的带宽, 表示在时隙t时用户j与基站i之间的SNR随机变量;

计算成本模型包括本地计算和边缘计算两种模型,其中本地计算模型包括:其中, 表示用户j在时隙t本地计算消耗的能耗, 表示用户j本地计算每cpu频率消耗的能耗, 表示用户j本地计算执行的任务量,γj表示移动用户j的计算密度,表示用户j在时隙t本地计算的时延, 表示用户j的计算能力;

边缘计算模型包括当用户j决定卸载时,计算任务将被传输到与MBS或SBS相连的MEC服务器;MEC服务器代替用户j执行计算任务,用户j传输计算任务到基站i的时延和能量消耗分别为:其中 表示用户j传输计算任务到基站i的时延, 表示用户j卸载到基站i的任务量,γj表示移动用户j的计算密度, 表示用户j传输计算任务到基站i的能耗,pj表示用户j的传输功率;

用户j任务卸载过程中的的计算成本和能量消耗为:

其中 表示用户j任务卸载过程中的的计算成本,βi表示MECi每单位时间的计算成本, 表示用户j在基站i的计算的时间, 表示用户j卸载任务到MEC服务器i的过程中的能量消耗, 表示用户j传输计算任务到基站i的能耗;

最小化系统时间平均成本开销为目标的优化问题包括:

其中, 表示用户j选择计算的模式, 表示用户j选择执行本地计算, 表示系统时间平均成本开销,T表示时隙的总长度,sup函数为求最小上界的函数, 表示求期望,C(t)表示系统成本开销。

2.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务队列模型Θi为:其中,Qj(t)、bj(t)、γj和 分别表示移动用户j在时隙t的开始等待处理的任务量、移动用户j在时隙t卸载的任务量、移动用户j的计算密度、移动用户j的最大容忍计算时间。

3.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述任务卸载约束条件包括:其中, 表示移动用户j是否卸载以及卸载到哪,t表示时隙的索引,当 表示移动用户j选择模式i执行计算任务计算;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示通过SBSi执行计算任务,MBS表示宏基站,SBSi表示第i个小基站;bj(t)表示用户j的任务卸载量, 表示移动用户j的最大任务卸载量, 表示队列的稳定性,U表示用户数量。

4.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述通过信道的信噪比表征信道状态的过程包括:n

将与每个基站相连的无线信道的SNR的值范围划分为d个非重叠等级,即{SNR ,n=1,n

2,...,d},其中SNR表示SNR的一个等级;用户j在时隙t随机选择的SNR的样本空间Ωj(t)表示为 所有用户在时隙t的样本空间的笛卡尔积为:其中,SNR表示信道的信噪比,Ω(t)表示所有用户在时隙t的样本空间的笛卡尔积,Ωj(t)表示移动用户j在时隙的样本空间。

5.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述确定最小化系统成本的优化问题的过程包括:确定用户j的计算决策 当 表示移动用户j选

择模式i执行计算任务, 表示其他;i∈{0,1,2,...,N}表示选择的计算模式,i=0表示执行本地计算,i=1表示通过MBS执行计算任务,i>1表示SBSi执行计算任务;

根据计算决 策、选择的 计算模式以 及 用户信息确定 卸载决策向 量计算每个用户j的卸载决策到目标服务器的任务量 其中 表示

移动用户j在本地执行计算的任务量;根据任务量求出系统的通信成本和计算成本;对通信成本和计算成本进行优化,求出最小成本;

其中, 表示用户数量, 表示移动用户j选择的计算任务,MBS表示宏基站,SBSi表示第i个小基站, 表示所有用户的集合, 表示所有基站的集合, 表示每个用户j具体决策卸载多少任务量。

6.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述DDPG模型包括:系统状态空间 动作空间 系统奖赏函数所述系统状态空间 包括:

s(t)=(SNR0(t),SNR1(t),...,SNRN(t),Q1(t),...,QU(t))其中, SNRi(t)表示基站i在时隙t的通信链路的信噪比,Qi(t),表示移动用户j在时隙t的队列积压任务量;

所述动作空间 包括:

A(t)=(a1(t),a2(t),...,aj(t),...,aU(t),b1(t),b2(t),...,bj(t),...,bU(t)f1(t),f2(t),...,fj(t),...,fU(t))其中 表示移动用户j选择计算的模式,

表示移动用户j选择模式i计算,bj(t)表示用户i在时间片t从队列中卸载的任务量,fj(t)表示分配给移动用户j的计算资源;

所述系统奖赏函数 包括:

其中, 表示用户j卸载任务到MEC服务器i的过程中的能量消耗, 表示移动用户j在时隙t传输计算任务的通信成本, 表示用户j任务卸载过程中的的计算成本, 表示本地执行过程中的能量消耗, 表示本地执行过程中的能量消耗。

7.根据权利要求1所述的一种基于深度强化学习的任务卸载方法,其特征在于,所述求解最优的任务卸载及计算资源分配策略的过程包括:在进行任务的卸载过程中每个状态‑动作对对应相应的行动值函数,也称作Q函数,采用卷积神经网络对Q函数进行模拟,得到Qμ网络,其中Q网络的参数为θ;采用另一个卷积神经网络对策略π进行模拟,得到策略网络,Q其中策略网络的参数为θ;将获取的样本数据保存为四元组的形式

μ

并存储到样本池;在样本池中随机抽取小批量样本数据对策略网络进行训练,计算参数θQ和θ的最优解,得到最优的任务卸载;根据最优的的任务卸载分配资源;

其中,s(t)表示系统当前的状态,a(t)表示采用的动作, 表示获得的奖赏,s(t+1)μ Q表示转移的下一个状态,θ表示Q网络网络参数,θ表示策略网络的参数。