1.一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,包括以下步骤:
1)构建系统模型,确定用户能耗和延迟计算模型;
2)利用马尔科夫优化理论,将步骤1)中平均时延最小化问题转化为在线策略优化问题;
3)利用深度强化学习理论对步骤2)中的在线策略优化优化问题中的约束条件进行松弛,并对动作和奖励函数进行重组;
4)针对步骤3)中的问题建立智能体训练模型,并对模型进行训练获得资源部署策略。
2.根据权利要求1所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,所述步骤1)构建系统模型,确定用户能耗和延迟计算模型,具体包括以下步骤:
构建一个系统模型,包括M个边缘计算服务器以及N个用户,在每个时隙t内用户i以概率产生服务请求,可由三个变量定义: 其中 表示数据大小; 表示完成服务所需的CPU周期数; 表示最大容忍延迟,移动客户端i的CPU频率为 边缘服务器jt
的CPU频率为 在时隙t内,能量传输的持续时间为τ,数据卸载的持续时间为用户i的服务请求完成时间由以下公式进行计算:其中 代表服务请求 能否在客户端i本地进行处理,如果可以, 否则 变量 代表服务请求 是否在时隙t内被卸载到边缘服务器j上;变量 和 分别代表在本地处理的计算延迟、传输到服务器j的传输延迟、由服务器j处理的计算延迟,以及在本地的排队延迟;
客户端i在时隙t内收获的能量通过以下公式获得:其中μ是能量获取的效率,为0和1之间的小数,变量 是发送端到客户端i发送功率,为信道增益;
客户端i的能量消耗表示为:其中 为本地计算能量消耗,由如下公式进行计算:变量Pij为从客户端i到服务器j的发送功率, 为从客户端i到服务器j的传输能耗,通过如下公式获得:
其中κi为客户端i的能效系数;
优化目标为最小化用户请求平均完成时延,问题描述如下:S.t.,
约束条件1要求客户端i调度服务请求所消耗的能量必须小于客户端剩余能量;约束条件2确保服务请求能够在可容忍的延迟内完成。
3.根据权利要求2所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,移动客户端采用半双工通信方式,能量传输和数据卸载过程不能同时进行,因此采用先能量传输后任务卸载的调度方式。
4.根据权利要求2所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,本地计算延迟 可由如下公式进行计算:传输延迟可通过如下公式获得:其中 是从客户端i到服务器j的传输速率,远端计算延迟 可以通过如下公式进行计算:
本地排队延迟可通过如下公式进行计算:其中t′代表服务请求在该时隙内被处理,Δt′代表在时隙t′内能量传输结束后到服务请求被处理前的等待时间。
5.根据权利要求4所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,所述步骤2:利用马尔科夫优化理论,将步骤1)中平均时延最小化问题转化为在线策略优化问题,具体包括:延迟最小化问题定义为一个马尔科夫优化问题,用元组 表示,各元素含义如下:
状态S:代表所建立的马尔科夫模型的状态,可表示为其中,S1表示服务器的状态,包括服务器的位置和计算能力;S2表示用户的状态,包括用户当前位置和用户的服务请求;S3表示信道的状态,包括数据传输速率和发送功率;
动作A:表示为 包含能量传输时间决策和任务调度决策;
t+1 t t t
状态转移概率P:表示为P:S×A×S→[0,1],基于概率P(s |s ,a)和动作a ,系统状态t t+1
从s跳转到s ;
奖励函数R:表示为 代表时隙t内智能体k执行动作 后获得的瞬时奖励,目标是最小化服务完成时间,因此瞬时奖励通过以下公式获得:步骤1中的优化问题转化为:s.t.,
*
其中V(st)表示训练模型的状态值函数,γ表示折扣因子,代表当前动作对未来奖励的影响。
6.根据权利要求5所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,所述步骤3:利用深度强化学习理论对步骤2)中的优化问题进行进一步分析和转化,具体包括:
首先对动作进行等价变换,时隙t内的动作定义为 其中 为能量传输的持续时间, 是任务处理顺序;其次对利用拉格朗日松弛约束条件并对瞬时奖励函数进行变换,变换后的瞬时奖励利用如下公式进行计算:之后引入折扣熵正则项,系统值函数通过如下公式进行计算:t
其中ξ是一个控制变量,H(π,s)是熵;
最后,将值函数分解成M个元素对应于M个智能体,对于每个智能体只需要求解如下优化问题:
P2
t t t t
s.t.V1(s)=...=Vj(s)=Vj+1(s)=...=VM(s).。
7.根据权利要求6所述的一种基于无线能量驱动的移动边缘计算分布式服务部署方法,其特征在于,所述步骤4:针对步骤3)中的问题建立智能体训练模型,并对模型进行训练,具体包括以下步骤:
1)神经网络模型初始化;
2)所有智能体与环境进行交互,并输入观测状态到神经网络模型,获取当前执行动作;
3)将智能体在每个时隙的观察状态和执行的动作以批处理的方式进行保存;
4)基于保存的批处理结果,对神经网络模型进行训练以获得资源分配策略;
5)基于训练获得的策略,边缘服务器对资源进行配置,若实验时间未结束,重复步骤
2)。