1.一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合 表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;
在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题,DDRCM指的是下行资源消耗最小化:DDRCM:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;
β:下行传输总能量消耗的权重因子;
t:基站发送数据到移动用户的下行传输时间,单位是秒;
是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;
W:基站到移动用户的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
gBi:基站到移动用户i的信道功率增益;
基站需要发送到移动用户i的数据量,单位是兆比特;
基站最大下载能量消耗,单位是焦耳;
max
T :基站发送数据到移动用户的最大下行传输时间,单位是秒;
(2)DDRCM问题表示如下:
DDRCM:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
DDRCM问题是在给定移动用户下载量 的情况下找到最优的下行资源消耗,观察DDRCM问题知道它的目标函数只有一个变量t;
(3)通过深度确定性策略梯度方法来寻找一个最优的下行传输时间记为t*,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成;基站的下行传输时间t和基站的最小发射功率 都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)来调节;在执行单元,评分单元和环境不断交互更新下,t将不断被优化直到找到下行资源消耗的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′) (3)其中,各参数定义如下:
xT:在时刻T,系统所处状态;
xT+1:在时刻T+1,系统所处状态;
a:在当前状态执行单元所采取的动作;
a′:在下一状态执行单元所采取的动作;
S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;
S′(xT+1,a'):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;
r(xT,a):在状态xT下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)基站的下行传输时间t和基站的最小发射功率 作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1。
2.如权利要求1所述的一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,其特征在于,所述步骤(4)中,所述深度确定性策略梯度方法的迭代过程为:步骤4.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;
步骤4.3:动作a对状态xT进行更改,使其变成下一状态xT+1并得到环境所反馈的奖励r(xT,a);
步骤4.4:按照格式(xT,a,r(xT,a),xT+1)把历史经验保存在记忆库中;
步骤4.5:评分单元接收动作a,状态xt和奖励r(xT,a),给执行单元打出分数S(xT,a);
步骤4.6:执行单元通过更新自身参数不断去最大化分数S(xT,a),尽可能地让自己在下次能做出高分动作;
步骤4.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗。