欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018104770390
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合 表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;

在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题,DDRCM指的是下行资源消耗最小化:DDRCM:

0≤t≤Tmax  (1-3)

Variables:t

下面将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;

β:下行传输总能量消耗的权重因子;

t:基站发送数据到移动用户的下行传输时间,单位是秒;

是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;

W:基站到移动用户的信道带宽,单位是赫兹;

n0:信道背景噪声的频谱功率密度;

gBi:基站到移动用户i的信道功率增益;

基站需要发送到移动用户i的数据量,单位是兆比特;

基站最大下载能量消耗,单位是焦耳;

Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;

(2)DDRCM问题表示如下:

DDRCM:

s.t.constraint(1-1)constraint(1-2)

Variable:0≤t≤Tmax

DDRCM问题是在给定移动用户下载量 的情况下找到最优的下行资源消耗,观察DDRCM问题知道它的目标函数只有一个变量t;

(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*,该强化学习系统由智能体和环境所组成;基站的下行传输时间t和基站的最小发射功率 都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,下行传输时间t将不断被优化直到找到下行资源消耗的最小值,智能体的更新方式为:Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′)  (1-5)其中,各参数定义如下:

θ:评估网络中的参数;

θ′:目标网络中的参数;

xT:在时刻T,系统所处状态;

Qθ(xT,a):在状态xt下采取动作a所得到的Q值;

r(xT,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

(4)基站的下行传输时间t和基站的最小发射功率 作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1。

2.如权利要求1所述的一种基于深度强化学习的非正交接入下行传输时间优化方法,其特征在于,所述步骤(4)中,所述强化学习的迭代过程为:步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;

步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;

步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;

步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;

步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);

步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;

步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;

步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗。