知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于MADDPG算法的多波束卫星通信系统资源分配方法

￥17000

专利号： 2022111446928

申请人：深圳泓越信息科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2024-11-28

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于MADDPG算法的多波束卫星通信系统资源分配方法，其特征在于：包括以下步骤：S1：建模卫星通信网络模型及业务模型；所述卫星通信网络模型，包含一个采用数字波束成型技术的多波束高通量卫星及多个用户，卫星覆盖区域用S表示，令N表示卫星的波束数目，波束间采用频率复用技术，系统总时间为T，将T分为等长的时隙，每个时隙长度为τ，令Ptot表示卫星总功率，Pmax表示单个波束最大发射功率，Btot表示卫星可用带宽，将总带宽划分为M个等长子信道，则每个子信道的带宽为Btot/M，令fm表示第m个子信道的载波频率，令k(x,y)表示用户存在变量，k(x,y)∈{0,1}，若(x,y)处存在卫星用户，则k(x,y)＝1，反之k(x,y)＝0；

所述卫星业务模型具体包括：假设多波束卫星覆盖区域存在L个卫星业务类型，令qt,l,(x,y)表示t时隙内(x,y)处到达的第l类卫星业务需求量，建模qt,l,(x,y)为正态分布随机变量，均值为μl,(x,y)、方差为令表示t时隙初(x,y)处卫星终端的业务需求总量，其中，Qt,(x,y)表示t时隙(x,y)处卫星终端的实际传输吞吐量；

S2：建模用户关联变量及功率分配变量，具体包括：令αt,n,(x,y)＝[αt,n,1,(x,y),Tαt,n,2,(x,y),...,αt,n,M,(x,y)] 表示t时隙波束n与(x,y)处卫星用户关联向量，其中αt,n,m,(x,y)∈{0,1}，若t时隙波束n占用第m个子信道与(x,y)处用户通信，则αt,n,m,(x,y)＝1，反之，αt,n,m,(x,y)＝0；

建模功率分配变量，具体包括：令pt,n＝[pt,n,1,pt,n,2,...,pt,n,M]表示t时隙波束n的发射功率分配向量，其中pt,n,m表示t时隙波束n占用第m个子信道所对应的发射功率；

S3：建模卫星信道，具体包括：令ht,n,m,(x,y)表示t时隙卫星与位于(x,y)处卫星终端之间的链路占用波束n在第m个子信道的信道增益，ht,n,m,(x,y)建模为其中表示接收天线增益，建模为：

其中ut,(x,y)＝2.07123sin(θt,(x,y))/sin(θ3dB)，θt,(x,y)表示t时隙卫星与(x,y)处接收天max,r线的方位角，θ3dB为3dB波束带宽对应的角度，g 为接收天线最大增益；表示卫星发射天线增益，建模为：其中φn为波束n对应的天线波束宽度，δ＜＜1，为t时隙卫星到地面(x,y)处在子信道m的自由路径损耗，其中c为光速，dt,(x,y)为t时隙卫星到(x,y)处的距离，表示t时隙卫星到地面链路的雨衰系数；

S4：建模系统吞吐量，具体包括：令Qt,n表示t时隙波束n覆盖区域内的终端实际总吞吐量，则It,n,m,(x,y)为t时隙波束n内占用子信道m的(x,y)处用户受到的波束间干扰，定义为：令

表示t时隙波束n覆盖范围内的需求吞吐量总和，则

S5：建模系统回报函数，包括：

t时隙波束n覆盖区域内系统吞吐量相关的回报函数为：

其中λ表示奖励因子，Z表示差异阈值，0≤Z≤Ω，其中Ω表示调整参数；

t时隙卫星覆盖区域内的平均回报函数为：

S6：建模系统资源分配约束条件，具体包括：

1)波束发射功率约束：单个波束存在最大发射功率限制，则有：

波束总发射功率不超过系统总功率，则有：

2)子信道分配约束：为防止过度的同频干扰，设同一子信道最大重用数为F，则有：

3)用户关联约束：同一时隙一个地面用户只能关联一个波束中的一个子信道，则有：S7：建模系统状态及动作，具体包括：定义t时隙全局状态空间st＝{st,1,st,2,…,st,N}，其中表示t时隙波束n的状态，定义t时隙的联合动作空间at＝{at,1,at,2,…at,N}，其中at,n＝{αt,n,(x,y),pt,n|(x,y)∈S}表示t时隙波束n的动作空间，包含用户关联变量和波束功率分配变量；

S8：构建并训练多智能体深度确定性策略梯度MADDPG网络，具体包括：将N个波束视为N个智能体，每个智能体包括四个神经网络，分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络；初始化智能体各网络，初始化经验回放缓冲区D、系统状态st；对于智能体n，利用其当前演员现实网络和随机过程选择动作at,n＝μn(st,n|θn)+χt,n，其中μn为智能体n的演员现实网络，θn为演员现实网络μn的参数，χt,n为随机噪声，各智能体执行联合动作at，得到全局奖励Rt，转移到下一时刻的状态st+1，将四元组(st,at,Rt,st+1)并将其存入经验回放缓冲区D；从D中抽取样本，利用损失函数最小化更新智能体n的评论家现实网络，即其中Φn为智能体n的评论家现实网络，ωn为评论家现实网络Φn的参数，yn为评论家目标网络的Q值，表示为：

其中为智能体n的评论家目标网络，为评论家目标网络的参数，为智能体n的演员目标网络，为演员目标网络的参数，γ为评论家网络学习率，0＜γ＜1；根据样本数据和评论家现实网络生成的Q值，利用策略梯度更新公式更新演员现实网络：通过软更新算法更新演员目标网络和评论家目标网络的参数，具体为：其中ε＜＜1为目标网络的软更新参数；

S9：基于MADDPG算法确定系统资源分配策略，具体包括：在满足波束发射功率、子信道分配、用户关联的限制条件下，以系统平均回报最大化为目标，优化确定资源分配策略，即：其中和分别是最优用户关联策略和波束功率分配策略。