欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107956724
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法,其特征在于:所述方法包括以下步骤:

1)集能型无线中继网络中通过可再生能量优化管理实现最大吞吐量,其中,优化问题描述为一个多变量优化问题:P1:

受限于:

在此,问题P1的各参数定义如下:

pi:中继节点在时隙i的传输功率;

ri:中继节点在时隙i的数据率;

τi:源节点在时隙i的传输时间;

中继节点在时隙i的传输时间;

ui:源节点在时隙i的数据率;

hi:中继节点到目的节点的信道增益;

Ei:中继节点在时隙i时所采集的能量;

Emax:中继节点的电池最大容量;

Qmax:中继节点的数据缓存容量;

L:单个时隙长度;

T:传输时隙数;

W:网络带宽;

2)行动者评论家结构由行动者神经网络和评论家神经网络组成,神经网络又由多个神经元和连接两个神经元的神经链路组成,其中,单个神经元所进行的数学运算,如下所示:在此,各参数定义如下:

yj:第j个神经元的输出;

f:激活函数;

wij:连接神经元i和神经元j的权重;

xi:前一层神经元i的输出;

bj:第j个神经元的偏置;

行动者神经网络和评论家神经网络的更新方式为不断地缩小自己的误差,其中行动者神经网络的误差定义如下:a_loss=-logπ(at|st;θ)Rt    (3)其中,各参数定义如下:

a_loss:行动者神经网络的误差;

π:系统当前策略;

θ:神经网络参数;

st:系统在t时刻的状态;

at:系统在t时刻所采取的动作;

Rt:系统在t时刻的累积奖励;

评论家神经网络的误差定义如下:

c_loss=vtarget-v    (4)其中,各参数定义如下:

c_loss:行动者神经网络的误差;

vtarget:行动者神经网络在某个状态下的目标价值;

v:行动者神经网络在某个状态下所预测出的价值;

3)将问题P1分解为两部分优化:功率子优化和时隙子优化,即优化变量pi和 来得到最优的ri,也就是问题P1的最优解,异步优势行动者评论家算法中的局部网络用于与环境交互,环境就是问题P1,同时不断调整变量pi和 来不断使问题P1的值最大化,而全局网络则不断协调各个局部网络,加速学习过程,使得找到最优解的速度大大提升;

通过局部网络来寻找一个最优的pi和 即中继节点在各时隙i的传输功率和传输时间,该局部网络系统由行动者神经网络和评论家神经网络所组成,中继节点在各时隙i的传输功率pi和传输时间 都被编进了行动者神经网络当前状态xt,行动者神经网络在当前状态下采取动作a进入下一个状态xt+1,动作a是对系统状态xt的更改,如果改后的系统在各时隙i的数据率ri之和比之前的要大,则使当前奖励r(xt,a)设为正值,反之设为负值,同时系统进入下一状态xt+1,在行动者神经网络和环境不断交互更新下,传输功率pi和传输时间将不断被优化直到找到最优解。

2.如权利要求1所述的一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法,其特征在于:所述步骤3)中,异步优势行动者评论家算法的迭代过程为:步骤3.1:初始化算法中的全局网络和局部网络,当前系统状态为xt,t初始化为1,迭代次数k初始化为1;

步骤3.2:当k小于或等于给定迭代次数K时,局部网络中的行动者神经网络根据系统状态xt输出的动作a(t);

步骤3.3:环境得到动作a(t)后返回奖励r(t)和下一步状态;

步骤3.4:局部网络中的评论家神经网络根据奖励r(t)指导行动者神经网络优化自己的参数;

步骤3.5:局部网络中的行动者神经网络和评论家神经网络根据各自的误差,不断缩小误差,优化自身;

步骤3.6:每隔S步,局部网络将自己误差相对参数的梯度上传至全局网络,全局网络根据梯度更新参数后,将参数复制给局部网络,同时令k=k+1,回到步骤3.2;

步骤3.7:当k大于给定迭代次数K时,学习过程结束,得到最佳传输功率pi和传输时间