欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107956758
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法,其特征在于:所述方法包括以下步骤:

1)集能型无线中继网络中通过可再生能量优化管理实现最大吞吐量,其中,优化问题描述为一个多变量优化问题:P1:

受限于:

在此,问题P1的各参数定义如下:

pi:中继节点在时隙i的传输功率;

ri:中继节点在时隙i的数据率;

τi:源节点在时隙i的传输时间;

中继节点在时隙i的传输时间;

ui:源节点在时隙i的数据率;

hi:中继节点到目的节点的信道增益;

Ei:中继节点在时隙i时所采集的能量;

Emax:中继节点的电池最大容量;

Qmax:中继节点的数据缓存容量;

L:单个时隙长度;

T:传输时隙数;

W:网络带宽;

2)将问题P1分解为两部分优化:功率子优化和时隙子优化,即通过优化变量pi和 来得到最优的ri,其中,通过强化学习的方法来优化中继节点在各时隙i上的传输功率pi和传输时间 从而最终决定问题P1中各时隙i的数据率ri之和的最大化;

该强化学习系统由智能体和环境所组成,中继节点在各时隙i的传输功率pi和传输时间都被编进了系统当前状态xt,智能体在当前状态下采取动作a进入下一个状态xt+1,同时得到环境返回的奖励值r(xt,a),在智能体和环境不断交互更新下,传输功率pi和传输时间将不断被优化直到找到最优的,其中,智能体的更新方式为:Qθ(xt,a)=r(xt,a)+γmaxQθ′(xt+1,a′)  (3)其中,各参数定义如下:

θ:评估网络中的参数;

θ′:目标网络中的参数;

xt:在时刻t,系统所处状态;

Qθ(xt,a):在状态xt下采取动作a所得到的Q值;

r(xt,a):在状态xt下采取动作a所得到的奖励;

γ:奖励衰减比重;

3)中继节点在各时隙i的传输功率pi和传输时间 作为深度强化学习的系统状态xt,动作a则是对系统状态xt的更改,如果改后的系统在各时隙i的数据率ri之和比之前的要大,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1。

2.如权利要求1所述的一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法,其特征在于:所述步骤3)中,强化学习的迭代过程为:步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;

步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(t),否则随机选择一个动作;

步骤3.4:采取动作a(t)后,得到奖励r(t)和下一步状态x(t+1),并将这些信息按照格式(x(t),a(t),r(t),x(t+1))保存在记忆库中;

步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xt,a)+γmaxQθ′(xt+1,a′);

步骤3.6:最小化误差(y-Q(x(t),a(t);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;

步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;

步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最佳传输功率pi和传输时间