欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022102103613
申请人: 国网浙江省电力有限公司台州市黄岩区供电公司
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种多无人机动态部署方法,其特征在于,该方法具体包括以下步骤:S1:对于一个固定区域,将区域离散地划分为大小相等的AoI,在任意时隙开始时刻,利用A‑ConvLSTM模型预测该区域未来流量与用户分布情况;其中,AoI表示兴趣区域,A‑ConvLSTM模型表示融合注意力机制的卷积长短期记忆深度时空网络模型;

所述A‑ConvLSTM模型将目标区域均匀离散地划分为若干个单元即AoI,每个单元具有唯一标识,单个单元内的所有用户及其产生的流量作为该单元用户数与流量值,并将所有单元所有时隙用户与流量数据组成时空三维张量,以此为样本完成网络模型的训练和预测;

所述A‑ConvLSTM模型由输入层、ConvLSTM层、注意力层、批量归一化层和输出层构成;

输入层输入为流量历史时空序列,输出层输出为下一时刻流量预测矩;

ConvLSTM层的每个时间单元都有一个记忆单元Ct以积累状态信息,Ct通过三个具有参数的控制门进行访问和修改,即输入门it、忘记门ft和输出门ot;当一个时间步数据输入到ConvLSTM层时,如果输入门it被激活,它所携带的信息存储到Ct;如果忘记门ft被激活,表示忘记过去的单元状态;最终隐藏状态Ht由输出门ot控制,它决定单元的输出Ct是否传播到最终状态;各个门及Ct、Ht的运算规则如下:其中,“*”表示卷积运算, 表示哈达玛积,σ表示sigmoid激活函数,tanh表示双曲正激活函;ConvLSTM在输入到状态、状态到状态的转换中将LSTM的全连接网络替换为卷积运算,Dt是t时刻固定区域的流量矩阵;Ct、Ht、it、ft、ot均是三维张量,前两个维度是空间维度,后一维度是通道;wdi、wxi、wci、wdf、whf、wcf、wdc、wxc、wdo、who、wco及bi、bf、bc、bo表示各个门的卷积核参数;

所述A‑ConvLSTM模型是在ConvLSTM网络基础上融合注意力机制,以学习整体网络对不同时刻的隐藏状态Ht的关注程度;其中注意力机制具体为:首先,通过卷积神经网络完成ConvLSTM的各个时间步的三阶张量隐藏状态到特征向量的转换,具体为通过多层卷积及池化的操作完成隐藏状态的空间特征提取和降维,然后重塑为特征向量;

其次,将特征向量通过多层感知机及softmax函数映射为注意力权重;

最后,将注意力权重与隐藏状态相乘并通过激活函数得到单步预测输出;

S2:基于区域未来流量与用户分布的预测结果,在无人机为区域内用户提供下行信道接入的场景下,将单个无人机视作智能体,将多无人机的轨迹规划与资源分配建模为部分可观测马尔科夫博弈;优化多无人机的轨迹、用户选择和功率分配,以最大化区域整体的用户满意度和最小化无人机能耗为优化目标;具体包括:基于每个单元的流量与用户预测数值,定义用户总体满意度来刻画用户的预测接入速率和既得接入速率之间的差异及公平性,通过优化多无人机的轨迹、用户选择和功率分配,以实现最大化区域整体的用户满意度和最小化无人机能耗的优化目标;

所述用户总体满意度为:

其中,Vn(t)表示AoIn的用户总体满意度, 表示t时隙利用A‑ConvLSTM网络预测到的AoIn的用户数, 表示AoIn内的用户预期速率,Rn(t)表示AoIn内用户得到的下行接入速率;

所述优化目标为:

其中,λ和β分别表示无人机单位移动功耗相对系数和发射功耗相对系数;

表示无人机m对AoIn的发射功耗;umn(t)={0,1}表示无人机m与AoIn之间的关联情况,umn(t)=1表示无人机m与AoIn关联,反之则不关联;Pmn(t)为无人机m为AoIn内的用户提供的发射功率,dm(t)表示无人机m在二维欧式空间中于时隙t的飞行距离,δm(t)表示飞行方位;无人机集群表示为 M为无人机数量;AoI集合 N表示AoI数量;时隙集合 T表示无人机飞行时间;[xm(t),ym(t)]表示t时隙无人机m的坐标; 表示t时隙利用A‑ConvLSTM模型预测到的AoIn的流量值;

约束条件(b)表示任意AoI最多只与一架无人机关联;条件(c)表示无人机时隙间移动距离不得超过最大距离dmax;条件(e)表示无人机地理位置不得超过区域 条件(f)表示无人机为关联AoI内提供的发射功率不得超过其最大功率限制Pmax;条件(g)和(h)中f1、f2表示 和 的状态转移函数,分别用两个A‑ConvLSTM模型去捕捉该种函数映射;

S3:构建具有混合网络结构的多智能体深度确定性策略强化学习算法,利用集中式训练‑分布式执行的机制学习部分可观测马尔科夫博弈的最佳策略,使得单个智能体只需要观测本地状态并执行最优本地决策,实现与动态环境匹配的最佳无人机部署;具体包括:将优化多无人机的轨迹、用户选择和功率分配,以最大化区域整体的用户满意度和最小化无人机能耗问题建模为部分可观测马尔科夫博弈即POMG,并利用具有混合网络结构的多智能体深度确定性策略强化学习算法即MADDPG算法求解每个智能体的最佳策略,在集中式训练‑分布式执行机制下实现多无人机的最佳动态部署;

在一个存在POMG环境中,每个智能体具有一个本地Actor网络和Critic网络,采用MADDPG算法求解POMG最佳决策;

采用集中式训练‑分布式执行的方式训练并执行MADDPG算法,具体包括:在训练阶段,为避免无人机之间的信令开销,考虑在一个边缘服务器上执行训练所有智能体Actor网络和Critic网络,该边缘服务器能够与无人机集群中至少一个无人机通信,并通过无人机之间的集群路由获取训练信息;在执行阶段,每个无人机下载训练好的Actor网络模型,根据自身观测状态做出最优决策,即调整飞行位置、用户关联和功率分配。