1.一种基于CMADDQN网络的多波束卫星通信系统资源分配方法,其特征在于,该方法具体包括以下步骤:S1:建模多波束卫星通信场景;
S2:建模卫星子信道分配变量、卫星载波功率分配和卫星信道;
S3:建模卫星传输速率和卫星业务模型;
S4:计算业务公平性系数;
S5:建模卫星通信系统资源分配限制条件;
S6:建模系统状态及动作;
S7:建模系统回报函数;
S8:构建并训练多智能体协作双深度Q学习CMADDQN网络;
S9:基于CMADDQN网络优化确定卫星通信系统资源分配策略;
步骤S1中,建模多波束卫星通信场景,具体包括:多波束卫星的最大波束数为K,系统总带宽为B0,将总带宽分为M个等长的子信道,每个子信道带宽为B=B0/M,每个波束使用的最大子信道数目为M,Cm为第m个子信道的载波频率;令N表示卫星服务的小区数目,Un为小区n的汇聚设备,该设备汇聚小区的通信流量需求;系统总时间为T,将T分为等长的时隙,每个时隙长度为τ;卫星以等长数据包形式发送用户数据至各小区,令λn,t为t时隙小区n的数据包平均到达率,数据包长度为F,各数据包到达后需在J个时隙内发送,否则丢弃数据包;
步骤S2中,建模卫星子信道分配变量,具体包括:令xn,t=[xn,1,t xn,2,t … xn,m,t … Txn,M,t] 表示t时隙小区n的子信道分配标识,xn,m,t∈{0,1},若t时隙卫星地面小区分配到子信道m,xn,m,t=1,若t时隙小区n没有分配到子信道m,xn,m,t=0;
T
建模卫星载波功率分配,具体包括:令pn,t=[pn,1,t pn,2,t … pn,m,t … pn,M,t]表示t时隙卫星发送数据至小区n时的发送功率,其中pn,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率,pn,m,t建模为 其中S为功率量化数目,ps为第s阶量化功率,即 ptot为每个波束的最大发送功率,δn,m,t,s为发送功率阶数选择变量,若t时隙卫星占用子信道m发送数据至小区n时选择发送功率ps,δn,m,t,s=1,否则,δn,m,t,s=0;
建模卫星信道,具体包括:令hn,m,t表示t时隙卫星与Un在子信道的信道增益,hn,m,t建模为 其中 表示Un接收天线增益, 建模为其中J1(·)表示第一类一阶贝塞尔函数,J3(·)表示第一类三阶贝塞尔函数;un,t=2.07123sin(θn,t)/sin(θ3dB),θn,t表示t时隙卫星与Un接收天线的max,r离轴角,θ3dB为3dB波束带宽对应的角度,g 为接收天线最大增益; 表示卫星发送天线增益,表示为:max,t
其中g 为卫星发送天线最大增益, 为t时隙Un到卫星的仰角,Ln,m为卫星与Un之间链路在子信道m的自由损耗, 其中c为光速,dn为Un与卫星之间的距离;
为t时隙信道雨衰,hn,t表示t时隙卫星到Un之间链路的随机衰落特性;
步骤S3中,建模卫星传输速率,具体包括:令 其中
Rn,t表示t时隙卫星与Un之间的传输速率,In,m,t为t时隙Un受到的干扰,
2 2
σn为噪声功率,σn=BN0,N0为噪声功率谱密度;
建模卫星业务模型,具体包括:令qn,t表示t时隙末卫星需发送至小区n的数据包数量,qn,t的更新公式为步骤S4中,计算业务公平性系数,表达式为:
其中,ρt表示用户业务公平性系数;dn,t,j表示截至t时隙,前j时隙小区n请求但未服务的数据包数量;
步骤S5中,建模卫星通信系统资源分配限制条件,具体包括:
1)卫星波束分配限制
令yt={yn,t,1≤n≤N}为t时隙波束分配集合,其中yn,t表示波束分配变量,yn,t∈{0,1},若t时隙卫星波束点亮小区n,yn,t=1,否则,yn,t=0,每个时隙最多只有K个小区被卫星波束覆盖,则有子信道分配与波束分配变量需满足如下限制:
2)卫星发送功率限制
卫星在t时隙的总发送功率需满足最大功率限制,则有
其中,pmax为卫星最大发送功率;每一个波束的发送功率需小于卫星波束最大发送功率,则有其中,ptot为卫星波束最大发送功率;每个载波发送功率需满足波束分配变量的限制,则有
3)卫星发送功率阶数选择限制
卫星发送功率阶数选择变量应满足:
步骤S6中,建模系统状态及动作,具体包括:令st为t时隙的状态,建模为st={hn,m,t,Dn,t},其中Dn,t=[dn,t,0 dn,t,1 … dn,t,J‑1];令At为t时隙的动作空间,At建模为At={yn,t,xn,m,t,δn,m,t,s};
步骤S7中,建模系统回报函数,具体包括:令rt为t时隙系统回报函数,rt建模为其中ω1,ω2,ω3为加权系数,r1,t表示系统t时隙系统吞吐量回报函数,建模为
步骤S8中,构建并训练CMADDQN网络,具体包括:构建K个波束选择智能体和MK个功率选择智能体,每个波束拥有一个波束选择智能体和M个功率选择智能体,每个波束选择智能体选择一个小区并提供服务;每个功率选择智能体为子信道选择发送功率阶数,每个智能体包含一个Q网络和一个目标Q网络;训练阶段首先初始化经验回放缓冲区 1≤α≤(M+
1)K;设定折扣因子γ ,0≤γ≤1;初始化Q网络参数πt和目标Q网络参数 初始化每个智能体观察环境状态sα,t=st;令ε为噪声参数,对于每一个智能体的Q网络,以概率P<ε从动作空间At中随机选取动作aα,t,否则选取动作 各智能体执行联合动作at=(a1,t,a2,t,…,aα,t,…,a(M+1)K,t),环境状态转移到st+1,每个智能体得到全局奖励rt,即t时隙系统回报函数;将四元组(st,aα,t,rt,sα,t+1)存入经验回放缓冲区Vα;对于每一个智能体的目标Q网络,从经验回放缓冲区Vα中随机抽取小批量的数据样本计算目标Q网络的Q值 其中Qα,t(sα,t+1,aα,t,πα,t)表示从Vα抽取的小批量的数据样本中观察状态为sα,t+1时的Q值;计算损失函数利用梯度下降算法基于Lα(sα,t,aα,t,πt)最小化更新Q网络的参数πt,并更新相应的
步骤S8中,基于CMADDQN网络优化确定卫星通信系统资源分配策略,具体包括:令表示期望累计奖励,在满足多波束卫星波束分配,子信道分配,发送功率分配和发送功率阶数选择的限制条件下,以最大化期望累计奖励为目标,优化确定波束调度和资源分配策略,即:其中 和 分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。