欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201810477062X
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的非正交接入上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合 表示,移动用户使用非正交接入技术同时向基站发送数据,其中移动用户i需要发送的数据量用表示;

在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题ORRCM问题,ORRCM指的是整体无线资源消耗最小化:

0≤t≤Tmax      (1-3)Variables:t

下面将问题中的各个变量做一个说明,如下:α:上行传输时间的权重因子;

β:上行传输总能量消耗的权重因子;

t:移动用户发送数据到基站的上行传输时间,单位是秒;

是关于t的函数,表示移动用户i为了在给定上行传输时间t内完成发送数据量所需要的最小发射功率,单位是瓦特;

W:移动用户到基站的信道带宽,单位是赫兹;

n0:信道背景噪声的频谱功率密度;

giB:移动用户i到基站的信道功率增益;

移动用户i需要发送到基站的数据量,单位是兆比特;

移动用户i最大上传能量消耗,单位是焦耳;

Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;

(2)ORRCM问题表示如下:

s.t.constraint(1-1)constraint(1-2)

Variable:0≤t≤Tmax

ORRCM问题是在给定移动用户上传量 的情况下找到最优的整体无线资源消耗(上行传输时间和所有移动用户总能量消耗),观察ORRCM问题知道它的目标函数只有一个变量t;

(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习系统由智能体和环境所组成;所有移动用户的上行传输时间t和每个移动用户的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′)     (1-5)其中,各参数定义如下:

θ:评估网络中的参数;

θ′:目标网络中的参数;

xT:在时刻T,系统所处状态;

Qθ(xT,a):在状态xt下采取动作a所得到的Q值;

r(xT,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率 作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;

强化学习的迭代过程为:

步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;

步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;

步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;

步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(x+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;

步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);

步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;

步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;

步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗。