1.一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:包括以下步骤:步骤1、构建无人机‑移动边缘计算系统,该无人机‑移动边缘计算系统由F个终端设备和M架无人机组成,每个无人机搭载MEC服务器在固定区域内进行任务卸载,使用 表示第p个终端设备中的应用程序,p={1, 2, …,F},F表示终端设备的个数, ,其中表示为任务集, 表示任务依赖约束,该无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型:其中MUT 和MUE 分别表示总时延和总能耗, 表示任务 在无人机执行完成并返回数据的完成时间, 表示任务 在本地执行时的完成时间,其中q={1, 2 ,…, n},n是要卸载的应用 中相关的密集型任务的个数, 表示任务 的完成时间,如果 在无人机上执行,则等于 ,否则等于 ;
表示任务集 中最后一个任务的完成时间; 和
分别表示任务在无人机执行和在本地执行的能耗, 表示无人机的飞行能耗;
步骤2、采用深度强化学习的方法对无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,求解方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S 表示状态空间;A表示动作空间;
是向量值奖励, 和 分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案; 是任务卸载策略下的标量化函数, 其中 、 是指当前偏好;
步骤3、为了求得最小化时延和能耗, 需初始化用户偏好空间:采用NBI法生成均匀分布的N个权重向量,从而为时延和能耗两目标分配当前用户偏好空间;
步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化:所述Q网络采用Double DQN与Dueling DQN相结合的方法,用来选择动作以及对步骤2建立的任务卸载模型进行训练优化;所述目标Q网络用于计算目标Q值,所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来;所述Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中第二个隐藏层通过Dueling DQN的方法将网络结构分为Value层和Advantage层;
步骤5、深度强化学习中的智能体与MEC环境开始交互,一方面智能体从MEC环境中获取当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态,智能体从MEC环境中获得当前状态,并进行偏好经验池更新,所述偏好经验池更新的方法为:从偏好空间Ψ中选择当前偏好 ,并判断当前偏好 是否在遇到的偏好经验池W中,如果不存在,则将当前偏好 添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新;
步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值,从动作空间A中选择当前状态s下的动作a,并执行动作得到向量值奖励r和下一个状态s´,所述动作空间A包括如下两个动作:在终端设备执行任务和卸载到无人机‑移动边缘计算系统上执行任务;
步骤7、进行经验存储操作:将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态s´作为一条经验存入经验缓冲池Φ;
步骤8、进行经验样本训练:首先从经验缓冲池Φ中随机选择一部分作为经验样本;然后从偏好经验池W中利用非支配排序的方法选择经验偏好 ,通过Q网络和目标Q网络同时进行训练,旨在最大化向量值奖励,得到最优的卸载决策;在训练过程中,设Q网络的输入为当前状态s、经验偏好 和当前偏好 ,输出Q值,目标Q网络的输入为下一个状态s´、经验偏好 和当前偏好 ,输出目标Q值,利用下式计算损失函数L:上式中,Q和Q´分别表示Q网络和目标Q网络得到的Q值和目标Q值,γ表示奖励折扣因子,s´是Q网络输出的下一个状态, 表示状态s´下,执行当前最优动作后的得到的最大Q值;
最后,利用损失函数值更新Q网络,每隔300代将Q网络参数同步给目标Q网络:
步骤9、判断Q网络训练是否结束,从而选择是否输出卸载决策,具体方法为:判断当前迭代是否达到最大迭代次数,是则输出最优卸载决策,其中最优卸载决策是指智能体执行动作a后得到的向量值奖励最大,否则转到步骤5。
2.根据权利要求1所述的一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:所述任务依赖约束 包括:约束1:无人机只能在规定的矩形区域飞行,同时规定了t时隙水平方向范围和t时隙内飞行的最大距离;
约束2:任务执行时,必须保证其前面的任务已经全部执行完成;一方面,如果任务在无人机执行时,必须确保处理任务的输出数据已经完全传输到终端设备;另一方面,如果任务在本地终端设备执行时,其前面的任务必须全部执行完成;
约束3:在无人机执行任务时必须保证任务的输入数据已全部传输到无人机‑移动边缘计算系统上,并保证其前面的任务全部执行完成。
3.根据权利要求1所述的一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:所述步骤6的具体实现方法为:采用Double DQN方法选择动作a,利用两个动作价值函数确定动作a:一个用于估计动作,另一个估计该动作的价值,表示如下:其中s表示当前状态,a表示所执行的动作, 表示用户当前偏好,
表示当前状态s下选择Q值最大的动作,rand是一个[0,1]的随机
数, 表示贪心概率,取值0.9;在当前状态s下执行动作a得到下一步的状态s´和向量值奖励r, 该向量值奖励r定义为:其中 和 分别表示第p个终端设备中应用程序的任务执行顺序中第q‑1个和第q个任务, 表示任务 的完成时间, 表示t时隙任务的能耗, 和 分别表示时延的奖励值和能耗的奖励值;T个时隙内的奖励值函数 和 分别定义为:其中 表示奖励折扣因子,取值为0.99。