知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法

面议

专利号： 2018104770386

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2023-08-24

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法，其特征在于，所述方法包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合表示，基站使用非正交接入技术同时向移动用户发送数据，其中移动用户i需要接收的数据量用表示；

在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题，DDRCM指的是下行资源消耗最小化：DDRCM：

0≤t≤Tmax (1-3)

Variables：t

下面将问题中的各个变量做一个说明，如下：α：下行传输时间的权重因子；

β：下行传输总能量消耗的权重因子；

t：基站发送数据到移动用户的下行传输时间，单位是秒；

是关于t的函数，表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率，单位是瓦特；

W：基站到移动用户的信道带宽，单位是赫兹；

n0：信道背景噪声的频谱功率密度；

gBi：基站到移动用户i的信道功率增益；

基站需要发送到移动用户i的数据量，单位是兆比特；

基站最大下载能量消耗，单位是焦耳；

max

T ：基站发送数据到移动用户的最大下行传输时间，单位是秒；

(2)DDRCM问题表示如下：

DDRCM：

s.t.constraint(1-1)

constraint(1-2)

Variable：0≤t≤Tmax

DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗，观察DDRCM问题知道它的目标函数只有一个变量t；

(3)通过深度确定性策略梯度方法来寻找一个最优的下行传输时间记为t*，该深度确定性策略梯度方法由执行单元，评分单元和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了执行单元所需的状态xT，执行单元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1，同时得到环境返回的奖励r(xT，a)，评分单元结合状态xT，动作a以及环境返回的奖励r(xT，a)给执行单元打分，即表明执行单元在状态xT下采取动作a是好是坏，执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，通过奖励r(xT，a)来调节；在执行单元，评分单元和环境不断交互更新下，t将不断被优化直到找到下行资源消耗的最小值，评分单元的更新方式为：S(xT，a)＝r(xT，a)+γS′(xT+1，a′) (3)其中，各参数定义如下：

xT：在时刻T，系统所处状态；

xT+1：在时刻T+1，系统所处状态；

a：在当前状态执行单元所采取的动作；

a′：在下一状态执行单元所采取的动作；

S(xT，a)：执行单元中的评估网络在状态xT下采取动作a所得到的分值；

S′(xT+1，a＇)：执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值；

r(xT，a)：在状态xT下采取动作a所得到的奖励；

γ：奖励衰减比重；

(4)基站的下行传输时间t和基站的最小发射功率作为深度确定性策略梯度方法的状态xT，动作a则是对状态xT的更改，更改后系统的总损耗会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(xT，a)设为负值，反之设为正值，同时系统进入下一状态xT+1。

2.如权利要求1所述的一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法，其特征在于，所述步骤(4)中，所述深度确定性策略梯度方法的迭代过程为：步骤4.1：初始化深度确定性策略梯度方法中的执行单元，评分单元和记忆库，当前系统状态为xT，T初始化为1，迭代次数k初始化为1；

步骤4.2：当k小于或等于给定迭代次数K时，在状态xT下，执行单元预测出一个动作a；

步骤4.3：动作a对状态xT进行更改，使其变成下一状态xT+1并得到环境所反馈的奖励r(xT，a)；