1.一种基于深度强化学习的移动边缘计算速率最大化方法,其特征在于,所述方法包括以下步骤:
1)在一个由一个基站和多个无线设备组成由无线供电的边缘计算系统中,基站和每个无线设备都有一个单独的天线;射频能量发射器和边缘计算服务器都集成在基站中,假设基站有一个稳定的能量供给,并且能广播射频能量给所有无线设备;每一个无线设备都有一个能量收集电路和一个可充电电池,通过存储收集的能量来完成一些任务;在这个无线通信系统中,每个无线设备都需要与基站建立联系,无线设备i与基站之间的信道增益hi计算为:
其中,各参数定义如下:
Ad:天线增益;
π:圆周率;
fc:载波频率;
di:无线设备i与基站之间的距离;
de:路径损耗指数;
2)假设每一个无线设备的计算任务可以在本地低性能的微处理器上执行或者分流给具有更强大的处理能力的边缘计算服务器,它将处理计算任务然后将结果发送回无线设备;假设无线设备采用二进制计算分流规则,也就是,一个无线设备必须选择是本地计算模式或者分流模式;使用两个互不重叠的集合 和 分别表示在本地计算模式和分流模式的所有无线设备,所有无线设备集合 表示为:
3)处在集合 中的无线设备可以收集能量并同时处理本地任务,而处在集合 中的无线设备只能在收集能量后将任务分流至基站处理,假设基站的计算能力和传输能力要比能量采集无线设备要强大得多,在这种情况下,在任务卸载过程中,无线设备耗尽了其收集的能量,所有无线设备的计算速率总和最大化问题描述为:约束条件为:
式中:
其中,各参数定义如下:
ωi:第i个无线设备的转换权重;
μ:能量收集效率;
P:射频能量传输功率;
Φ:处理每一位数据所需的计算循环次数;
hi:第i个无线设备的信道增益;
ki:第i个无线设备的能源效率系数;
α:时间系数;
vμ:转换效率;
B:带宽;
τj:第j个无线设备的时间系数;
N0:本地处理模式下无线设备的个数;
4)通过强化学习算法来寻找一个最优的模式选择,即所有无线设备的模式选择 和强化学习系统由智能体和环境所组成;所有用户的模式选择 和 都被编进了系统当前状态xt,智能体在当前状态下采取动作a进入下一个状态xt+1,同时得到环境返回的奖励r(xt,a);在智能体和环境不断交互更新下,模式选择 和 将不断被优化直到找到最优的,智能体的更新方式为:θ θ′
Q(xt,a)=r(xt,a)+γmaxQ (xt+1,a′) (4)其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xt:在时刻t,系统所处状态;
θ
Q(xt,a):在状态xt下采取动作a所得到的Q值;
r(xt,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
5)所有无线设备的模式选择 和 作为深度强化学习的系统状态xt,动作a则是对系统状态xt的更改,如果改后的系统的总计算速率比之前的要大,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。
2.如权利要求1所述的一种基于深度强化学习的移动边缘计算速率最大化方法,其特征在于:所述步骤5)中,强化学习的迭代过程为:步骤5.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xt,t初始化为1,迭代次数k初始化为1;
步骤5.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤5.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;
步骤5.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;
步骤5.5:结合目标网络的输出,计算评估网络的目标θ′
y=r(xt,a)+γmaxQ (xt+1,a′);
θ 2
步骤5.6:最小化误差(y‑Q (xt,a)) ,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤5.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤5.8:当k大于给定迭代次数K时,学习过程结束,得到最佳模式选择 和