1.一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,所述方法包括以下步骤:S1、采用高斯马尔科夫模型和卫星的星历信息预测出用户终端可能的切换路径,并确定所述用户终端所对应的候选卫星;
S2、基于候选卫星的接收信号强度、服务时间、信道利用率以及中继开销四个切换因子,基于信息熵冗余度的方式来计算这四个切换因子的权重;根据这四个切换因子的重要性标度确定出判断矩阵;对初始判断矩阵进行归一化处理;计算出每个切换因子的信息熵;
按照所述信息熵所对应的冗余度确定每个切换因子的具体权重;按照四个切换因子及其对应的具体权重制定出用户终端关联不同候选卫星的收益函数;
其中,每个切换因子的具体权重表示为:
REj表示第j个切换因子下信息熵所对应的冗余度,REj=1‑IEj;IEj表示第j个切换因子的信息熵,表示为 pij表示第j个切换因子下做出切换到第i个候选卫星的概率;I表示候选卫星总数;
S3、计算出用户终端在当前状态下选择不同决策动作所获得的收益奖赏值;
S4、根据所述收益奖赏值,用户终端采用Q学习算法计算出对应的Q值;
S5、用户终端根据Q值表进行切换判决,使得用户终端关联到对应卫星。
2.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,确定所述用户终端所对应的候选卫星包括采用高斯马尔科夫模型对用户终端的运动速度和运动方向进行建模,预测出用户终端的运动轨迹:确定出所述运动轨迹下有重叠覆盖时间的卫星;在卫星的星历信息约束下,得到处于用户终端的通信时长内可提供服务的候选卫星。
3.根据权利要求2所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,所述采用高斯马尔科夫模型对用户终端的运动速度和运动方向进行建模包括:其中,vi、di分别表示i时刻用户终端的运动速度和方向;vi‑1、di‑1分别表示i‑1时刻用户终端的运动速度和方向;k∈(0,1)是一个随机性参数,可对速度和方向进行调整;
分别表示某段时间内用户终端速度和方向的平均值;{δi‑1}、{γi‑1}是两个服从均值为零,方差为1的不相关高斯过程;用户终端在i时刻的坐标为(xi,yi),在i‑1时刻的坐标为(xi‑1,yi‑1),两者之间的关系表示为:
4.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,所述用户终端关联不同候选卫星的收益决策表示为:R(s,a)=w1N(ui)+w2N(ti)+w3N(si)+w4N(di)
其中,R(s,a)表示在状态s下选择决策动作a获得的收益奖赏;N(ui)表示信道利用率的归一化函数,w1表示信道利用率的权重;N(ti)表示服务时间的归一化函数;w2表示服务时间的权重;N(si)表示接收信号强度值的归一化函数;w3表示接收信号强度值的权重;N(di)表示中继开销的归一化函数;w4表示中继开销的权重。
5.根据权利要求4所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,各个权重通过层次分析法进行求解,具体包括对各个切换因子进行重要性分析,采用一致矩阵法构建出判断矩阵;计算出所述判断矩阵的最大特征根对应的特征向量,将所述特征向量进行归一化处理,将归一化后的向量作为权重向量,即各个切换因子的权重值所对应的向量。
6.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,所述Q学习算法计算出对应的Q值的计算公式表示为:其中,Qt+1(s,a)表示t+1时刻用户终端在当前状态s下采用决策动作a获得的Q值;α表示学习率;γ表示折扣率;Qt(s,a)表示t时刻用户终端在当前状态s下采用决策动作a获得的Q值;R(s,a)表示在当前状态s下选择决策动作a后智能体获得的即时奖励值;
表示智能体通过训练累积的经验中获知的最大收益。
7.根据权利要求1所述的一种低轨卫星网络中基于Q学习的切换判决方法,其特征在于,所述用户终端根据Q值表进行切换判决包括判断下一状态是否为终止状态,若为终止状态,则输出对应的用户终端在当前状态s下采用决策动作a的Q值,否则继续更新用户终端在不同状态下的Q值,根据该Q值让用户终端关联到对应卫星。