1.一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,所述方法包括:
步骤1)针对异构网络环境中能量收集使能的MEC网络,分别建立计算任务模型,任务卸载到异构网络中的通信模型、任务执行模型和能耗模型,并根据建立的模型获得环境状态;
步骤2)将边缘云服务器视为主方,根据获得的环境状态构建出主方的即时奖励函数,并根据主方的即时奖励函数建立主方执行协同资源分配决策的长期累积奖励的收益目标函数;
步骤3)将移动设备视为从方,根据获得的环境状态构建出从方的即时奖励函数,并根据从方的即时奖励函数建立从方执行任务卸载决策的长期累积奖励的收益目标函数;
步骤4)最大化主方的收益目标函数和从方的收益目标函数,结合主方和从方的决策约束条件,构建出斯塔克尔伯格博弈模型;
步骤5)基于随机时变的网络环境和主从双方不完备的观测状态,将斯塔克尔伯格博弈模型建模为部分可观测马尔可夫决策过程博弈模型;
步骤6)采用多智能体的深度强化学习算法求解部分可观测马尔可夫决策过程博弈模型,通过集中训练和分布式执行方式,学习并优化边缘云资源协作分配决策和移动设备任务卸载决策。
2.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,所述环境状态包括边缘云服务器的可用计算资源和无线信道增益;移动设备的位置、任务积压、可用能量以及在收集的能量。
3.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,所构建出的斯塔克尔伯格博弈模型表示为:s.t.ai(t)∈{‑1,0,1}
其中,F(t)为边缘云服务器的计算资源分配策略集合,B(t)为边缘云服务器的带宽资L
源分配策略集合;a(t)为移动设备任务卸载策略集合;R 表示边缘云服务器的长期累积奖L
励的收益,r (t)表示在时隙t中边缘云服务器的即时奖励; 表示移动设备i的长期累积奖F
励的收益,ri (t)表示在时隙t中移动设备i的即时奖励, 表示网络中的移动设备集合;ai(t)表示移动设备i在时隙t的任务卸载策略;1{x}是一个指示函数,当条件x为真时等于1,否则等于0;fi0(t)表示MBS在时隙t中分配给移动设备i的计算资源,Bi0(t)表示MBS在时隙t中分配给移动设备i的带宽资源; 表示MBS的最大计算能力, 表示MBS的可用带宽资源;fij(t)表示FBSj在时隙t中分配给移动设备i的计算资源; 表示FBSj的最大计算能力;Bij(t)表示FBSj在时隙t中分配给移动设备i的带宽资源; 表示FBSj的可用带宽资源; 表示FBSj覆盖范围内的移动设备集合;m表示移动设备总数,MBS表示宏基站,FBSj表示第j个毫微微基站。
4.根据权利要求1或3所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,边缘云服务器的即时奖励表示为:L
其中,r[F(t),B(t),a(t)]表示F(t)、B(t)和a(t)下,边缘云服务器的即时奖励,F(t)为边缘云服务器的计算资源分配策略集合,B(t)为边缘云服务器的带宽资源分配策略集合,a(t)为移动设备任务卸载策略集合; 是衡量边缘云服务器的指标满意度函数,是衡量移动设备相应指标满意度函数;ω1,ω2,ω3是边缘云服务器的相关权重系数,λ1和λ2是移动设备的相关权重系数; 表示在时隙t中移动设备i的任务丢弃指示因子; 表示在时隙t中移动设备i的任务在MBS中的任务卸载时延; 表示在时隙t中FBSj的任务计算失败指示因子; 表示在时隙t中MBS的任务计算失败指示因子。
5.根据权利要求1或3所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,移动设备的即时奖励表示为:F * * * * *
其中,ri [F(t),B(t),a(t)]表示F (t)、B (t)和a(t)下,移动设备i的即时奖励,F (t)*为边缘云服务器的最优计算资源分配策略集合,B (t)为边缘云服务器的最优带宽资源分配策略集合,a(t)为移动设备任务卸载策略集合; 是衡量移动设备相应指标满意度函数;λ1和λ2是移动设备的相关权重系数;Qi(t)表示移动设备i在时隙t的本地任务队列,φi(t)表示在时隙t中移动设备i的任务计算概率。
6.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,所述将斯塔克尔伯格博弈模型建模为部分可观测马尔可夫决策过程博弈模型包括边缘云服务器只能观测到不完全的信道信息和移动设备的部分信息;任一移动设备只能观测到边缘云服务器的部分信息;从而构建出观测空间;并结合参与者集合、环境状态空间、观测空间以及动作空间建立出部分可观测马尔可夫决策过程博弈模型;其中,对于边缘云服务器智能体的可观测空间,包括本地的剩余计算资源和所有移动设备的位置;对于任一移动设备智能体的可观测空间,包括该移动设备的位置、任务积压和可用能量。
7.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,通过集中训练和分布式执行方式,学习并优化边缘云资源协作分配决策和移动设备任务卸载决策包括将主方和各个从方分别视为智能体,每一个智能体在当前时隙中执行一个决策动作,就根据其独立的即时奖励函数会在下一个时隙中获得一个对应的即时奖励,智能体根据收到的即时奖励利用Actor网络和Critic网络更新各自的决策。
8.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法,其特征在于,所述方法还包括对移动设备本地能量的管理,其中,任一移动设备通过能量收集技术捕获周边环境中的能量,用以支持该移动设备的数据通信和业务处理。