1.一种基于MADDPG算法的多波束卫星通信系统资源分配方法,其特征在于:包括以下步骤:S1:建模卫星通信网络模型及业务模型;所述卫星通信网络模型,包含一个采用数字波束成型技术的多波束高通量卫星及多个用户,卫星覆盖区域用S表示,令N表示卫星的波束数目,波束间采用频率复用技术,系统总时间为T,将T分为等长的时隙,每个时隙长度为τ,令Ptot表示卫星总功率,Pmax表示单个波束最大发射功率,Btot表示卫星可用带宽,将总带宽划分为M个等长子信道,则每个子信道的带宽为Btot/M,令fm表示第m个子信道的载波频率,令k(x,y)表示用户存在变量,k(x,y)∈{0,1},若(x,y)处存在卫星用户,则k(x,y)=1,反之k(x,y)=0;
所述卫星业务模型具体包括:假设多波束卫星覆盖区域存在L个卫星业务类型,令qt,l,(x,y)表示t时隙内(x,y)处到达的第l类卫星业务需求量,建模qt,l,(x,y)为正态分布随机变量,均值为μl,(x,y)、方差为 令 表示t时隙初(x,y)处卫星终端的业务需求总量,其中,Qt,(x,y)表示t时隙(x,y)处卫星终端的实际传输吞吐量;
S2:建模用户关联变量及功率分配变量,具体包括:令αt,n,(x,y)=[αt,n,1,(x,y),Tαt,n,2,(x,y),...,αt,n,M,(x,y)] 表示t时隙波束n与(x,y)处卫星用户关联向量,其中αt,n,m,(x,y)∈{0,1},若t时隙波束n占用第m个子信道与(x,y)处用户通信,则αt,n,m,(x,y)=1,反之,αt,n,m,(x,y)=0;
T
建模功率分配变量,具体包括:令pt,n=[pt,n,1,pt,n,2,...,pt,n,M]表示t时隙波束n的发射功率分配向量,其中pt,n,m表示t时隙波束n占用第m个子信道所对应的发射功率;
S3:建模卫星信道,具体包括:令ht,n,m,(x,y)表示t时隙卫星与位于(x,y)处卫星终端之间的链路占用波束n在第m个子信道的信道增益,ht,n,m,(x,y)建模为其中 表示接收天线增益,建模为:
其中ut,(x,y)=2.07123sin(θt,(x,y))/sin(θ3dB),θt,(x,y)表示t时隙卫星与(x,y)处接收天max,r线的方位角,θ3dB为3dB波束带宽对应的角度,g 为接收天线最大增益; 表示卫星发射天线增益,建模为:其中φn为波束n对应的天线波束宽度,δ<<1, 为t时隙卫星到地面(x,y)处在子信道m的自由路径损耗, 其中c为光速,dt,(x,y)为t时隙卫星到(x,y)处的距离, 表示t时隙卫星到地面链路的雨衰系数;
S4:建模系统吞吐量,具体包括:令Qt,n表示t时隙波束n覆盖区域内的终端实际总吞吐量,则It,n,m,(x,y)为t时隙波束n内占用子信道m的(x,y)处用户受到的波束间干扰,定义为: 令
表示t时隙波束n覆盖范围内的需求吞吐量总和,则
S5:建模系统回报函数,包括:
t时隙波束n覆盖区域内系统吞吐量相关的回报函数为:
其中λ表示奖励因子,Z表示差异阈值,0≤Z≤Ω,其中Ω表示调整参数;
t时隙卫星覆盖区域内的平均回报函数为:
S6:建模系统资源分配约束条件,具体包括:
1)波束发射功率约束:单个波束存在最大发射功率限制,则有:
波束总发射功率不超过系统总功率,则有:
2)子信道分配约束:为防止过度的同频干扰,设同一子信道最大重用数为F,则有:
3)用户关联约束:同一时隙一个地面用户只能关联一个波束中的一个子信道,则有:S7:建模系统状态及动作,具体包括:定义t时隙全局状态空间st={st,1,st,2,…,st,N},其中 表示t时隙波束n的状态,定义t时隙的联合动作空间at={at,1,at,2,…at,N},其中at,n={αt,n,(x,y),pt,n|(x,y)∈S}表示t时隙波束n的动作空间,包含用户关联变量和波束功率分配变量;
S8:构建并训练多智能体深度确定性策略梯度MADDPG网络,具体包括:将N个波束视为N个智能体,每个智能体包括四个神经网络,分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络;初始化智能体各网络,初始化经验回放缓冲区D、系统状态st;对于智能体n,利用其当前演员现实网络和随机过程选择动作at,n=μn(st,n|θn)+χt,n,其中μn为智能体n的演员现实网络,θn为演员现实网络μn的参数,χt,n为随机噪声,各智能体执行联合动作at,得到全局奖励Rt,转移到下一时刻的状态st+1,将四元组(st,at,Rt,st+1)并将其存入经验回放缓冲区D;从D中抽取样本,利用损失函数最小化更新智能体n的评论家现实网络,即 其中Φn为智能体n的评论家现实网络,ωn为评论家现实网络Φn的参数,yn为评论家目标网络的Q值,表示为:
其中 为智能体n的评论家目标网络, 为评论家目标网络 的参数, 为智能体n的演员目标网络, 为演员目标网络 的参数,γ为评论家网络学习率,0<γ<1;根据样本数据和评论家现实网络生成的Q值,利用策略梯度更新公式更新演员现实网络:通过软更新算法更新演员目标网络和评论家目标网络的参数,具体为:其中ε<<1为目标网络的软更新参数;
S9:基于MADDPG算法确定系统资源分配策略,具体包括:在满足波束发射功率、子信道分配、用户关联的限制条件下,以系统平均回报最大化为目标,优化确定资源分配策略,即:其中 和 分别是最优用户关联策略和波束功率分配策略。