1.一种基于深度强化学习的移动边缘计算分流决策方法,其特征在于,所述方法包括以下步骤:
1)在一个由多个用户组成,并且每个用户都有多个独立的任务的移动通信系统中,xnm为用户n的任务m的分流决策,如果xnm为1则表示用户n的任务m将被分流至基站或云端处理,xnm为0则表示在本地处理;当用户n的任务m被分流时,其上行传输速率 和下行传输速率受传输总带宽CU和CD的限制;当用户n的任务m在本地处理时,本地移动设备所产生的能量损耗为 如果在云端处理时,所产生的能量损耗为 系统总损耗最小化表示为:约束条件为:
xnm∈{0,1},
式中:
其中,各参数定义如下:
N:用户人数;
M:每个用户的任务数;
xnm:用户n的任务m的分流决策,为1时表示在云端处理,为0时在本地处理;
用户n的任务m在本地处理时的能量损耗;
用户n的任务m被分流时,传输过程中能量损耗;
用户n的任务m在云端处理时的能量损耗;
ρ:在云端处理时,能量损耗的转化权重;
ωn:用户n延时损耗的转化权重;
用户n的任务m在本地处理时的延时损耗;
用户n的任务在云端处理时的总延时损耗;
2)为了保证服务质量,当任务在云端处理时,数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内,每个用户n的任务由发送数据DOnm和接收数据DInm组成,当任务分流至云端时,期间所消耗的时间与本地和基站间的传输速率RAC相关;在云端处理时,时间消耗由发送数据大小和云端处理速度fC决定,由于数据传输和处理时间会有重叠,而重叠部分难以估算,所以总的时间损耗考虑为所有时间消耗的总和式中:
其中,各参数定义如下:
DInm:用户n的任务m的接收数据大小;
DOnm:用户n的任务m的发送数据大小;
用户n的上传速度;
用户n的下行速度;
RAC:基站与云端的传输速率;
ATnm:每处理单位的数据需要的处理循环次数;
fC:云端处理器的处理速度;
3)所有用户的分流决策将通过发送数据DOnm和接收数据DInm的大小决定,半监督学习的作用则是将它们作为半监督学习中神经网络的输入,然后生成一个能使整个系统的能量损耗总和最小的分流决策,即决定哪些用户的哪些任务在本地处理而哪些任务分流至云端处理;半监督学习中的神经网络用于分流决策预测,也是学习过程的核心,它接收所有用户的发送数据DOnm和接收数据DInm然后预测出一个分流决策,但这个分流决策不一定是最优的,所以之后将在预测出来的分流决策的基础上在生成另一个分流决策,然后通过计算选出这两个分流决策中最好的一个,最后在以好的那个分流决策作为神经网络的预测目标来优化神经网络,使其在下一次预测中能预测得更准;在不断重复这个过程中,神经网络将会预测得越来越准,直至收敛。
2.如权利要求1所述的一种基于深度强化学习的移动边缘计算分流决策方法,其特征在于:所述步骤3)中,半监督学习的迭代过程为:步骤3.1:初始化半监督学习中的评估神经网络,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,将所有用户的发送数据DOnm和接收数据DInm作为神经网络的输入,预测出初步的分流决策;
步骤3.3:在初步预测的分流决策的基础上,再产生另一种不同的分流决策;
步骤3.4:通过计算,选出这两种分流决策中能使总能量损耗更小的那个分流决策;
步骤3.5:将效果更好的分流决策和输入的所有用户的发送数据DOnm和接收数据DInm配对,组成一组带标签的数据,供神经网络学习;
步骤3.6:运用梯度下降算法和上一过程的数据,不断减小神经网络的误差,使其不断被优化,预测得更准,同时令k=k+1,回到步骤3.2;
步骤3.7:当k大于给定迭代次数K时,学习过程结束,得到最优的分流决策。