1.一种面向移动边缘计算的分布式服务迁移方法,其特征在于该方法主要包括如下步骤:第1、系统模型的构建:第1.1、建立回程延迟模型;第1.2、建立通信延迟模型;第1.3、建立计算延迟模型;第1.4、建立迁移成本模型;第2、自适应权重经验回放机制:第2.1、样本复杂度;第2.2、样本回报值重要性模型;第2.3、样本使用次数模型;第3、基于AWDDPG分布式任务迁移方法:第3.1、基于AWDDPG的解;第3.2、AWDDPG架构。2.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第1.1中建立回程延迟模型,即如果移动用户的本地MEC服务器的计算负载较高时将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理,MEC服务器之间的传输延迟表示为bn/Bm,其中bn表示移动用户n的输入数据大小,Bm表示MEC服务器的输出链路带宽,因此回程延迟表示为
其中,λ是一个正系数,d(m1,m2)表示边缘服务器m1与m2之间的跳数。3.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第1.2中建立通信延迟模型的方法如下,无线通信显著影响任务迁移的效率,通过有效的频谱资源管理提高无线通信的质量,为了最小化传输延迟,需要为每个移动用户提供适当数量的频谱资源,Sm表示MEC服务器m可用的频谱资源,t时刻连接到MEC服务器m的所有移动用户共享频谱资源Sm,用spen,m(t)表示t时刻,MEC服务器m分配给移动设备n的频谱比例,不考虑返回结果的传输延迟,根据香农定理,移动设备n与边缘服务器m之间的数据传输速率表示为:其中,Pn是移动设备n的传输功率,Gm,n移动设备n和MEC服务器m之间的信道增益,是白噪声功率,因此输入数据的传输延迟表示为:4.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第
1.3中建立计算延迟模型的方法如下:在每个服务器上有多个移动用户共享计算资源,帮助移动设备处理卸载的任务,Fm表示MEC服务器m的计算能力,φn(t)表示在t时刻Taskn所需的CPU周期,如果Taskn在MEC服务器m上完成所需时间表示为:其中,表示在服务器m上执行的计算任务数量,从公式(4)看出,边缘服务器上的执行延迟随着边缘服务器上的执行任务的数量成正比例增长,因此迁移服务时还需要考虑目标服务器的计算资源。5.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第1.4中建立迁移成本模型的方法如下:为了满足服务的连续性,需要在多个服务器之间迁移服务,假设移动设备n将全部卸载的任务从m1迁移到m2,用表示移动设备n在t时刻将
Taskn从m1迁移到m2的成本,
6.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第2.1中样本复杂度,DDPG结合了DQN和PG的优势,因此DDPG也采用了经验回放机制,因此,为回放存储中的每个状态样本分配优先级权重,样本i的复杂度表示为CF(si),其主要包括样本回报值的重要性函数RF(ri,DEi)以及关于样本的使用频率函数SUF(numi);其中,为超参数,使用样本复杂度来计算样本的采样概率:其中,ψ∈[0,1]是指数随机因子,当ψ=0时为均匀采样,ψ=1为优先级采样,随机因子保证优先级采样和均匀采样之间保持平衡,避免过拟合现象产生,对回放存储中的样本直接采样会产生一个分布误差,因此使用重要性采样权重wi来修正这个偏差,并使用归一化操作来缩小TD误差,
7.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第2.2中样本回报值重要性模型,样本回报值的重要性RF(ri,DEi)表示如下:RF(ri,DEi)=|DEi|*RW(ri)+α (9)其中,DEi=Q(si,ai;θc)‑(ri+μQ'(s′i,a′i;θc'))表示TD误差,其中Q(si,ai;θc)是Critic组件evaluate‑network的值,α是一个较小的正数,当时间差分为0时,α防止无法采样的情况出现,RW(ri)表示对应奖励的权重,由于稳定性的原因我们设置ri∈[‑1,1],并且RW(ri)>0,
8.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第2 .3中创建样本使用次数模型,当样本使用次数越多时,那么它下一次被选中的概率就越低,这是为了防止过拟合现象的出现,SUF(numi)表示如下:
9.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第3.1中基于AWDDPG的解为:每个移动用户都部署AWDDPG算法,包括Actor和Critic两个组件,对于移动用户n,在状态sn,Actor组件根据策略πn做出动作,Critic组件根据来
评估Actor做出的动作,AWDDPG作为一种策略梯度算法,是通过调整Actor和Critic组件的
evaluate‑network和target‑network的参数来获得最优策略并且学习相对应的状
态‑行为函数,具体来说,根据上述提出的自适应经验回放机制采样一个批大小为K的样本,逐一输入移动用户中,根据输入的样本,Actor和Critic组件在训练阶段更新evaluate‑network参数,第n个移动用户的第i个样本表示为Critic组件通过最小化损失
函数来调整evaluate‑network的参数其中,Q′n(·)表示第n个移动用户的Critic组件的target‑network的行为‑状态函数,表示第n个移动用户选取第i个样本的及时奖励,如果是连续可微的,用损失函数的梯度来调整因为每个代理的目的是最大化累积奖励,因此通过最大化目标函数来更新
Actor组件evaluate‑network的参数,其中AEn(·)表示第n个移动用户的Actor组件的evaluate‑network的行为‑状态函数,它表示策略πn:当每个关联模式变量放宽放到[0,1]时,代理的动作空间是连续的,
AEn(·)也是连续的,在这种情况下,得出是连续可微的,因此AEn(·)在方向
上调整,随着和的实时更新,target‑network的参数和可以根据公式(14)更新,
10.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第3.2中AWDDPG架构为:将集中式训练和分布式执行的框架应用到AWDDPG算法中,在离线集中训练阶段,除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区,因此第i个状态样本序列改写为