1.基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于该方法包括以下步骤:
S1.建立系统模型:
设EH‑D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,MDi,...,MDn}组成;每个移动设备MDi用多元组 来表示,其中和 分别表示低性能CPU和高性能CPU内核的数量; 和 分别表示低性能CPU和高性能CPU的最大计算能力; 分别表示移动设备MDi的执行功率,发送功率和接收功率; 表示移动设备MDi的电池容量;n个移动设备均通过无线充电站充电;
每个移动设备MDi会产生相互独立的任务,每个任务用一个二元组t=(W,D)表示,其中W表示任务工作负载,D表示单位工作负载的数据量;每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其它移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务;
在EH‑D2D网络中,采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片;
每个时间片的长度为Tslot=1s;,用 来表示时间片索引的集合;
S2.建立任务排队模型:
设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布;在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备;令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi从移动设备MDj接收的最大任务数;因此,执行队列Qi的状态演化可根据公式(1)计算;
Qi(τ+1)=max[Qi(τ)+ai(τ)W‑bi(τ)W‑∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)μji(τ)≤ηij(τ) (2)∑j∈nμij(τ)=ai(τ) (3)∑j∈nμij(τ)≤ai(τ) (4)∑j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目;公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi从MDj上接收的最大任务数;公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和;公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ);公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和;
S3.建立电量模型:
在时间片τ中,移动设备MDi的充电电量表示为 其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益;在每个时间片τ的开始,移动设备MDi的可用电量用 来表示,其演化方式根据公式(6)计算:
其中 和 分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量;公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量;公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量;
S4.建立网络模型:
令 和 分别表示在时间片τ中MDi与MDj之间的上行传输速率和下行传输速率,通过公式(10)和(11)计算:其中, 和 分别是MDi上行链路和下行链路的信道带宽; 表示MDi的传输功2
率;σ是高斯噪声功率; 和 分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益;由于MDi与MDj之间上下行的通信距离相同,所以通道增益 和 可通过计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离;
S5.多智能体强化学习的协作任务卸载策略:S51.定义状态空间:每个移动设备MDi被看作一个智能体;在时间片τ的开始,每个智能体当前的状态Oi(τ)可被观测,并将其用公式(12)表示;
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i‑1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益; 表示在时间片τ中MDi的可用电量; 表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数;
S52.定义动作空间:每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ);动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示;
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)μi(τ)=[μi1(τ),...,μi(i‑1)(τ),μi(i+1)(τ),...,μin(τ)] (14)ηi(τ)=[ηi1(τ),...,ηi(i‑1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其它(n‑1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n‑1)个移动设备上可接收的最大任务数向量;
在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量;
(1)执行任务所消耗的电量:移动设备采用动态调频技术来动态调节CPU频率;在时间片τ中MDi的计算能力 和计算功率 分别根据公式(16)和公式(17)计算:其中ai是与芯片架构有关的常数; 和 分别表示低性能CPU和高性能CPU内核的实际计算频率;当移动设备MDi决定在时间片t中本地执行bi(τ)任务时,使用公式(22)计算本地执行任务需要消耗的电量(2)卸载任务所消耗的电量:在时间片τ中,移动设备MDi实际卸载到移动设备MDj的任务数μ′ij可以用公式(19)表示;实际卸载任务所消耗的电量 可以用公式(20)来计算:执行任务,卸载任务和接收任务所消耗的电量之和不能超过移动设备的可用电量该约束条件用公式(21)表示:
S53.定义奖励函数:在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri;奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,用公式(22)表示:其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数;任务丢弃Di(τ)可以根据公式(23)计算;
其中|Qi|表示执行队列Qi的长度;公式(|Qi|+bi(τ)‑Qi(τ))表示执行队列Qi的可用空间;为了避免由于移动设备的电量耗尽而导致移动应用程序中断,将电量损失阈值设置为hi;当移动设备的可用电量 与最大电池容量 的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
S54.问题形式化:多用户协作任务卸载问题建模为部分可观测马尔可夫决策过程;它的主要目标是最大化整个系统的奖励;
Maximize:‑R (25)S6.策略实现:
设计了一种基于多智能体深度确定性策略梯度算法来求解多用户协作任务卸载问题,求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数;环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益;网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量;然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ);其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O‑i(τ+1);最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O‑i(τ+1))存储到其中继缓存Ωi中;
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组;然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O‑i(τ+1)的目标动作值和目标Q值;在目标评价网络中更新状态Oi(τ)的目标Q值,并根据该值更新估计Q网络。
2.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S1中所述移动设备的个数为4,这四个移动设备具有不同的类型;将移动设备MD1,MD2,MD3和MD4的类型分别设置为Type1,Type2,Type3和Type4;设备MD1,MD2,MD3和MD4的低性能内核数分别为 以及 最大CPU周期频率分别为和 设备MD1,MD2,MD3
和MD4的高性能内核数分别为 以及 最大CPU周期频率分别为 和 通过动态调频
技术动态调整每个移动设备的CPU频率级别;设置每个移动设备的常量值ai为ai=0.1125W/3
(GHz) ;每个任务的工作负载W在[0.6,1.4]Gycles范围内变化,初始值设置为W=1GHz·s,单位工作负载的数据量设置为D=1MB。
3.根据权利要求2所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S2中所述泊松分布参数,即任务到达率λi设置为[0,12]范围内变化;四个移动设备的任务到达率分别设置为λ1=3,λ2=1,λ3=7和λ4=10。
4.根据权利要求3所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S4中所述通信距离设置为200m以内;每个移动设备上行链路和下行链路的信UL DL 2
道带宽分别设置为BWi =10MHz和BWi =10MHz;高斯白噪声功率σ设置为‑174dbm/Hz;此外,设置路径损耗常数k为0.01,路径损耗指数θ为4,参考距离d0为1m:每个移动设备的发射功率和接收功率分别设置为 与
5.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S53中所述Qi(τ),Di(τ)和Pi(τ)的加权系数分别设置为ω1=1,ω2=15以及ω3=90。
6.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S6中所述测评动作网络由两个隐藏层组成,每个隐藏层中有30个神经元;测评评价网络由三个隐藏层组成;每个隐藏层中也有30个神经元,目标网络设置与测评网络设置相同;采用Adam优化器来更新目标网络,其中动作网络的学习率为0.0001,评价网络的学习率为0.003;奖励的权重γ设置为0.9,中继缓存的容量设置为10000,最小批样本数量设置为16。