1.一种基于深度强化学习的移动边缘计算分流决策方法,其特征在于,所述方法包括以下步骤:
1)在一个由多个用户组成,并且每个用户都有多个独立的任务的移动通信系统中,xnm为用户n的任务m的分流决策,如果xnm为1则表示用户n的任务m将被分流至基站或云端处理,xnm为0则表示在本地处理;当用户n的任务m被分流时,其上行传输速率 和下行传输速率受传输总带宽CU和CD的限制;当用户n的任务m在本地处理时,本地移动设备所产生的能量损耗为 如果在云端处理时,所产生的能量损耗为 系统总损耗最小化表示为:约束条件为:
式中:
其中,各参数定义如下:
N:用户人数;
M:每个用户的任务数;
xnm:用户n的任务m的分流决策,为1时表示在云端处理,为0时在本地处理;
用户n的任务m在本地处理时的能量损耗;
用户n的任务m被分流时,传输过程中能量损耗;
用户n的任务m在云端处理时的能量损耗;
p:在云端处理时,能量损耗的转化权重;
山n:用户n延时损耗的转化权重;
用户n的任务m在本地处理时的延时损耗;
用户n的任务在云端处理时的总延时损耗;
2)为了保证服务质量,当任务在云端处理时,数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内,每个用户n的任务由发送数据DOnm和接收数据DInm组成,当任务分流至云端时,期间所消耗的时间与本地和基站间的传输速率RAC相关;在云端处理时,时间消耗由发送数据大小和云端处理速度fC决定,由于数据传输和处理时间会有重叠,而重叠部分难以估算,所以总的时间损耗考虑为所有时间消耗的总和式中:
其中,各参数定义如下:
DInm:用户n的任务m的接收数据大小;
DOnm:用户n的任务m的发送数据大小;
用户n的上传速度;
用户n的下行速度;
RAC:基站与云端的传输速率;
ATnm:每处理单位的数据需要的处理循环次数;
fC:云端处理器的处理速度;
3)通过强化学习算法来寻找一个最优的分流决策和资源调度方案,即所有用户的分流决策xnm和上下行速率 和 分配;强化学习系统由智能体和环境所组成;所有用户的分流决策xnm和上下行速率 和 都被编进了系统当前状态xt,智能体在当前状态下采取动作a进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a),在智能体和环境不断交互更新下,分流决策xnm和上下行速率 和 将不断被优化直到找到最优的,智能体的更新方式为:
θ θ′
Q(xt,a)=r(xt,a)+γmaxQ (xt+1,a′) (3)其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xt:在时刻t,系统所处状态;
θ
Q(xt,a):在状态xt下采取动作a所得到的Q值;
r(xt,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
4)所有用户的分流决策xnm和上下行速率 和 作为深度强化学习的系统状态xt,动作a则是对系统状态xt的更改,如果改后的系统的总损耗比之前的要小,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。
2.如权利要求1所述的一种基于深度强化学习的移动边缘计算分流决策方法,其特征在于,所述步骤4)中强化学习的迭代过程为:步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xt,t初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;
步骤4.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;
θ′
步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxQ (xt+1,a′);
θ 2
步骤4.6:最小化误差(y‑Q (xt,a)) ,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最佳分流决策xnm和上下行速率 和