1.一种非正交接入上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合 表示,移动用户使用非正交接入技术同时向基站发送数据,其中移动用户i需要发送的数据量用表示;
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时间和所有移动用户总能量消耗的优化问题描述为如下所示的优化问题ORRCM问题,ORRCM指的是整体无线资源消耗最小化:
ORRCM:
max
0≤t≤T (1‑3)变量:t
下面将问题中的各个变量做一个说明,如下:α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
是关于t的函数,表示移动用户i为了在给定上行传输时间t内完成发送数据量 所需要的最小发射功率,单位是瓦特;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
移动用户i需要发送到基站的数据量,单位是兆比特;
移动用户i最大上传能量消耗,单位是焦耳;
max
T :移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:ORRCM:
s.t.表达式(1‑1)
表达式(1‑2)
max
变量:0≤t≤T
ORRCM问题是在给定移动用户上传量 的情况下找到最优的整体无线资源消耗,观察ORRCM问题知道它的目标函数只有一个变量t;
*
(3)通过深度确定性策略梯度方法来寻找一个最优的上行传输时间记为t ,深度确定性策略梯度系统由执行单元,评分单元和环境所组成;所有移动用户的上行传输时间t和每个移动用户的最小发射功率 都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)来调节;在执行单元,评分单元和环境不断交互更新下,t将不断被优化直到找到整体无线资源消耗的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′) (3)其中,各参数定义如下:
xT:在时刻T,系统所处状态;
xT+1:在时刻T+1,系统所处状态;
a:在当前状态执行单元所采取的动作;
a′:在下一状态执行单元所采取的动作;
S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;
S′(xT+1,a′):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;
r(xT,a):在状态xT下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率 作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1;
深度确定性策略梯度方法的迭代过程为:步骤4.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;
步骤4.3:动作a对上行传输时间t进行更改并进入下一个状态xT+1,并得到环境所反馈的奖励r(xT,a);
步骤4.4:按照格式(xT,a,r(xT,a),xT+1)把历史经验保存在记忆库中;
步骤4.5:评分单元接收动作a,状态xT和奖励r(xT,a),给执行单元打出分数S(xT,a);
步骤4.6:执行单元通过更新自身参数不断去最大化分数S(xT,a),尽可能地让自己在下次能做出高分动作;
步骤4.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤4.2;
*
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t ,使得有最优的整体无线资源消耗。