1.一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合 表示,给定一组智能终端 就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用 表示;
m
在保证发送完成所有智能终端的数据量以及给定一种解码排序π,其中m=1,2,...,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1‑m)问题:m max
0≤t≤T (1‑3)m
Variables:t
下面将问题中的各个变量做一个说明,如下:m m
π(i):给定解码排序π的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
m
t:智能终端发送数据到接入热点的上行传输时间,单位是秒;
m m
是关于t的函数,表示在第m种解码排序π的情况下,智能终端i在给定上行传m
输时间t内完成发送数据量 所需要的最小发射功率,单位是瓦特;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
智能终端i需要发送到接入热点的数据量,单位是兆比特;
智能终端i最大上传能量消耗,单位是焦耳;
max
T :智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(P1‑m)问题是在给定智能终端上传量 的情况下找到最小的整体无线资源消耗量,该整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1‑m)m
问题知道它的目标函数只有一个变量t;
*,m
(2)通过深度确定性策略梯度方法来寻找一个最优的上行传输时间记为t ,该深度确m
定性策略梯度方法由执行单元,评分单元和环境所实现;所有智能终端的上行传输时间t和每个智能终端的最小发射功率 都被编进了执行单元所需的状态xT,执行单m
元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)m
来调节;在执行单元,评分单元和环境不断交互更新下,t将不断被优化直到找到整体无线资源消耗的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′) (2‑1)其中,各参数定义如下:
xT:在时刻T,系统所处状态;
xT+1:在时刻T+1,系统所处状态;
a:在当前状态执行单元所采取的动作;
a′:在下一状态执行单元所采取的动作;
S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;
S′(xT+1,a′):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;
r(xT,a):在状态xT下采取动作a所得到的奖励;
γ:奖励衰减比重;
m
(3)所有智能终端的上行传输时间t 和每个智能终端的最小发射功率 作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1;
深度确定性策略梯度方法的迭代过程为:步骤3.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;
步骤3.3:动作a对状态xT进行更改,使其变成下一状态xT+1并得到环境所反馈的奖励r(xT,a);
步骤3.4:按照格式(xT,a,r(xT,a),xT+1)把历史经验保存在记忆库中;
步骤3.5:评分单元接收动作a,状态xt和奖励r(xT,a),给执行单元打出分数S(xT,a);
步骤3.6:执行单元通过更新自身参数不断去最大化分数S(xT,a),尽可能地让自己在下次能做出高分动作;
步骤3.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤3.2;
*,m
步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t ,和最优的整体无线资源消耗
m
(4)得到给定一种解码排序π的条件下的最优上行传输时间后,接着提出算法OptOrder‑Algorithm来找到最优的解码排序,找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
all
算法OptOrder‑Algorithm的求解思路是:设定智能终端集合为I ={g1,g2,...,gI},|all all cur cur curI |表示集合I 的基,初始化当前可选集合I ={g1,g2,...,gI},|I |表示集合I 的基,当前最优解码排序 当前最优解CBV是一个足够大的数,当前测试集合cur cur,test首先,第一次迭代过程,从I 中依次选择一个元素插进I 中,找出当cur,test cur,test cur all cur前最优的I ,使得有当前最小整体无线资源消耗的I ,更新I ,把I 去掉I,test cur cur,test之后的集合给I ,同时更新CBS,即把当前最优的I 给CBS;接着第二次迭代过程cur cur,test cur,test中,从当前I 中依次选择一个元素插进I 中,此时I 只有一个元素,插在该元素cur,test cur,test左边或右边,找出当前最优的I ,使得有当前最小整体无线资源消耗的I ,更新cur all cur,test cur cur,testI ,把I 去掉I 之后的集合给I ,同时更新CBS,把当前最优的I 给CBS;每次cur cur,test cur,test从当前I 中依次选择一个元素插进I 时,不能改变已确定的I 集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资* *
源消耗θ,全局最优上行传输时间t;算法OptOrder‑Algorithm的求解步骤如下:步骤4.1:设定
步骤4.2:开始while循环步骤4.3:设定CBV是一个足够大的数;
cur
步骤4.4:开始for循环m=1:1:|I |;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.6:设定
cur,test cur步骤4.7:如果h=0,设定I ={I (m),CBS}cur,test cur步骤4.8:否则如果h≠0,设定I ={CBS(1:h),I (m),CBS(h+1:|CBS|)};
cur,test *,cur,test步骤4.9:得到I 后,联合(2)和(3)深度确定性策略梯度方法计算出θ 和t*,m
;
*,cur,test *,cur,test * *,m cur,test步骤4.10:如果θ <CBV,设定CBV=θ ,t=t ,同时设定CBS=I ;
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
cur
步骤4.12:当m=|I |时,结束步骤4.4的for循环;
cur all
步骤4.13:设定I =I \CBS;
步骤4.14:当 时,结束步骤4.2的while循环;
* *
步骤4.15:输出θ=CBV以及t;
*
最后,算法OptOrder‑Algorithm输出的θ代表(P1‑m)问题中所求的全局最小整体无线*
资源消耗,(P1‑m)问题中待求的全局最优上行传输时间t。