1.一种低轨卫星网络能效感知路由优化方法,其特征在于,包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;其中所述目标函数的计算式为:其中,Γ是对丢失数据包的惩
罚项,τ表示时间段, 表示低轨卫星网络一个运行周期内总的决策次数, 表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包, 表示通信时延, 表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1,ω2,ξ1,ξ2分别表示各项的权重系数;在时间段(τ×δroute,(τ+1)×δroute)内,定义在低轨卫星网络中传输的丢包率为表示在(τ×δroute,(τ+1)×δroute)时间段内丢失的数据包数量;
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径,其中所述奖励函数的计算式为:其中,c1和c2均
表示范围在[0,1]的常数;
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
2.根据权利要求1所述的方法,其特征在于,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
3.根据权利要求1所述的方法,其特征在于,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述属性图的低维特征。
4.根据权利要求1所述的方法,其特征在于,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
5.根据权利要求1所述的方法,其特征在于,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
6.根据权利要求1所述的方法,其特征在于,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
7.一种低轨卫星网络能效感知路由优化系统,其特征在于,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数,其中所述目标函数的计算式为:其中,Γ是对丢失数据包的惩
罚项,τ表示时间段, 表示低轨卫星网络一个运行周期内总的决策次数, 表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包, 表示通信时延, 表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1,ω2,ξ1,ξ2分别表示各项的权重系数;在时间段(τ×δroute,(τ+1)×δroute)内,定义在低轨卫星网络中传输的丢包率为表示在(τ×δroute,(τ+1)×δroute)时间段内丢失的数据包数量;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;其中所述奖励函数的计算式为:其中,c1和c2均
表示范围在[0,1]的常数;
Q值计算模块,用于将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
8.根据权利要求7所述的系统,其特征在于,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述属性图的低维特征。