1.一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,假设无人机集群I={i}中的一台无人机开始返回地面并最终退出服务,其总时长为T,令其中,Δt为时隙长度,K为总时隙数,地面用户集合为J={j},用户j在T时长内持续产生任务单元卸载请求,具体包括以下步骤:
101、建立马尔科夫决策过程MDP数学模型,构造状态向量Sk、动作向量Ak、奖励函数Rk,其中,k为时隙数,将无人机集群控制器作为智能体,根据近端策略优化算法PPO建立无人机集群控制策略网络πθ,其中,θ为经过训练的神经网络参数向量;
*
102、无人机i发出返航指令,令时隙k=0;
103、令k=k+1,如果k≤K,智能体将当前时隙k的状态向量Sk输入策略网络πθ,获得动作向量Ak,同时,根据集合J中每一用户j的平均任务单元卸载时延 对其服务器资源分配变量集合 进行决策,跳转到步骤104,否则,跳转到步骤105;
104、根据动作向量Ak、服务器资源分配变量集合 执行无人机集群移动控制及任务卸载,并返回计算结果,获得状态向量Sk+1,根据奖励函数评价智能体的决策,计算相应的奖励值Rk,将{Sk,Ak,Rk,Sk+1}保存至向量集B中,跳转到步骤103;
*
105、无人机i 完成返航,剩余滞空无人机完成部署,根据向量集B更新神经网络参数向量θ,进一步优化策略网络πθ,算法结束。
2.根据权利要求1所述的一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,所述步骤101中构建状态向量Sk,动作向量Ak,奖励函数Rk,分别如公式(1)、(2)、(3)所示:
Ak={μi} (2)公式(1)中, 表示无人机i的状态向量, 表示无人机i在时隙k的坐标,非返回无人机高度固定为 令Ci为无人机i的服务器资源总量,表示无人机i已分配给用户的服务器资源,其中 计算一个任务单元需要占用一个单位的服务器资源; 表示用户j的状态向量,xj、yj、hj表示地面用户j的坐标,其高度hj=0, 表示用户j在时隙k的服务器资源分配变量集合,其中,表示用户j与无人机i建立连接,且无人机i为其分配了 大小的服务器资源,表示用户j未与无人机i建立连接, 表示用户j在时隙k的平均任务单元卸载时延,如公式(4)所示,其中, 表示用户j在时隙u的服务器资源分配变量,u∈[1,k];
公式(2)中,μi∈{0,1,...,8}表示无人机i的飞行控制决策变量,其中,0表示无人机i停止运动,{1,...,8}分别表示8个水平运动方向;
公式(3)中,Λi,j表示奖励函数的正反馈函数,如公式(5)所示,λ表示权重参数,Γj表示奖励函数的负反馈函数,如公式(6)所示:公式(5)中, 表示无人机i与用户j的距离,dmax表示无人机的最大通信距离,公式(6)中,τmax表示单个任务单元的卸载容忍时延。
3.根据权利要求1所述的一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,所述步骤101中无人机集群控制策略网络πθ,如公式(7)所示:公式(7)中, 表示在神经网络参数向量θ和输入状态向量Sk条件下,输出动作向量Ak的概率密度函数。
4.根据权利要求1所述的一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,所述步骤103中根据集合J中每一用户j的平均任务单元卸载时延 对其服务器资源分配变量集合 进行决策的步骤为:
1)令集合Q=J,将Q中元素按 的大小降序排列;
2)如果 取出Q中的第一个元素j,根据时延约束τmax,计算 跳转到步骤
3),否则,跳转到步骤4);
3)如果 将 对应的用户j加入Qi队列尾部,令 再将J‑{j}中所有用户对应的 置零,其中,α、β、γ为权重参数, 表示无人机i的预估负载,跳转到步骤2),否则,跳转到步骤2);
4)对每一无人机i∈I,依次为Qi中的用户分配 大小的服务器资源;
5)如果 且 其中, 为任务卸载时延,重复遍历Qi,每次仅分配一个单位服务器资源给相应的用户,令 跳转到步骤5),否则,返回
5.根据权利要求4所述的一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,所述步骤2)中计算 的方法如公式(8)所示:公式(8)中, 表示用户j在时隙v的服务器资源分配变量,其中,v∈[1,k‑1]表示当前时隙k之前的其它时隙。
6.根据权利要求4所述的一种基于资源退出场景的无人机服务器任务卸载调度方法,其特征在于,所述步骤5)中任务卸载时延及其约束条件,分别如公式(9)和(10)所示:公式(10)中,第一部分 为任务卸载的传输时延,F表示任务单元的数据量,表示在 距离下的传输速率,如公式(11)所示,公式(11)中,ω表示信道带宽,Pj表comp
示用户的传输功率,ρ0表示单位距离信道增益,N0表示噪声功率,第二部分D 为任务卸载的计算时延。