1.一种变电站无人机巡检航迹规划方法,其特征在于,包括:(1)构建变电站环境的三维栅格地图;
(2)通过差分进化算法DE对三维栅格地图进行全局多条航迹规划;
(3)通过星鸦优化算法NOA对全局多条航迹进行最优航迹求解,得到全局最优巡检航迹;
步骤(3)包括:
(301)种群初始化
将差分进化算法DE得到的全局多条航迹作为星鸦优化算法NOA的问题搜索空间解集;种群初始化公式如下:其中,
(302)觅食
在问题搜索空间内寻找相对最优解,星鸦个体在寻优过程中的位置更新公式如下:其中,
μ是基于正态分布τ
其中,r
(303)食物的储存
星鸦个体在寻找到相对最优航迹之后,将最优航迹保存并转移至设定的储存点,公式如下:其中,
(304)第二阶段觅食
最优航迹求解过程中,星鸦优化算法NOA会选择合适的参考点更新存储地点,并应用相应的探索机制来搜索最有希望的区域,这些区域中包含一个近似最优解;
位置更新公式如下:
其中,
(305)第二阶段开发
星鸦在搜索储存点时,遇到两种情况:第一种情况是,星鸦使用第一参考点记住储存点的位置;若记住了储存点的位置,则还有两种情况,食物存在或者食物不存在;这一行为的数学表达式如下:其中,
第二种情况是,星鸦利用第一参考点没有找到储存点的位置,再利用第二参考点继续搜索,具体公式如下:其中,
若假设星鸦在使用第二参考点时,找到了它的储存点,则第二参考点的更新公式为:其中,r
2.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(1)包括:通过无人机机载激光雷达采集变电站环境数据;
将变电站待测区域划分为m×n×s个l×l的矩形栅格,每个矩形栅格在传感器坐标系中被赋予唯一的行列编号以及相应的角度信息;
激光雷达检测到的N个数据点位置设为:p计算每个小栅格被占用的概率P从传感器的坐标原点到每个小栅格中心的距离r公式如下:其中,l表示一个栅格的长度;多个小栅格信息叠层为三维栅格地图;
将变电站的每个栅格信息进行数据融合,最终得到完整的变电站环境的三维栅格地图。
3.根据权利要求2所述的变电站无人机巡检航迹规划方法,其特征在于,栅格状态的判断依据如下:①
②
4.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(2)包括:(201)初始化种群
假设在一个D维的问题解空间中均匀随机地生成NP个无人机初始个体xx
i=1,2,…,NP,j=1,2,…,D其中,x
(202)变异操作
通过差分策略生成变异个体V其中,V
(203)交叉操作
通过随机方式将变异个体与目标个体的各维度分量进行组合,进而生成交叉个体u其中,u
(204)选择操作
选择更加适应环境的最佳个体进入子代继续繁衍,公式如下:其中,X
(205)重复变异、交叉和选择操作,直至达到预设迭代次数或无人机的航迹数量要求,得到全局多条航迹。
5.根据权利要求1所述的变电站无人机巡检航迹规划方法,其特征在于,参考点的位置计算公式如下:第一参考点的位置更新公式如下:第二参考点的计算公式如下:其中,
6.根据权利要求5所述的变电站无人机巡检航迹规划方法,其特征在于,从1~0线性递减因子α计算公式如下:其中,t代表当前迭代的次数;T
7.根据权利要求1至6中任一项所述的变电站无人机巡检航迹规划方法,其特征在于,还包括:(4)通过改进的D3QN算法对全局最优巡检航迹进行局部航迹优化,D3QN算法的改进方式为:D3QN算法通过ALS法获得最大Q值。
8.根据权利要求7所述的变电站无人机巡检航迹规划方法,其特征在于,步骤(4)包括:在给定策略π的情况下,处于状态s设置最优移动策略为π
巡检无人机运动体系结构计算公式如下:给定策略π:s
Q
其中,Q
D3QN算法通过最小化目标Q值和预测Q值之间的平方误差来训练神经网络,其损失函数为:其中,θ
收集实验期间的经验元组(sD3QN算法通过ALS法获得最大Q值,代入Bellman方程得到目标Q值;
设立矩阵R为评价矩阵,影响矩阵P和目标值矩阵Q;评价矩阵R分解成影响矩阵P和目标值矩阵Q相乘,得到对目标Q值的筛选;
其中,R
使用均方误差(RMSE)来训练P,Q矩阵,其损失函数为:其中,r
使用交替最小二乘法改进损失函数,固定其中一个矩阵,先固定Q,计算损失函数L(p,q)对pp
同理,固定P,继续计算L(p,q)对qq
其中,E为f×f的单位矩阵;r采用DDQN算法解耦目标Q值的选择和计算,然后将动作操作值和下一个状态值替换到目标网络中,计算目标Q值;
值函数V(s
Q函数计算公式如下:
其中,ω是两个子网络的公共参数;α是主导函数子网络的参数,β是优势函数子网络的参数,将无人机运动控制任务分解成多个子任务,每个子任务由不同的奖励函数标识;在t时刻,总奖励值等于所有子任务的奖励值之和,用以下公式来计算:
9.根据权利要求8所述的变电站无人机巡检航迹规划方法,其特征在于,将无人机的运动控制任务分解成速度控制与方向控制;
速度控制分支的奖励函数定义如下:其中,r是用于调整奖励大小的参数;v是无人机的当前速度;v方向控制的奖励函数可表示为:速度控制奖励函数与方向控制函数用于控制无人机的正常运动;当发生碰撞,应给予无人机反馈,以确保无人机在运动过程中的安全;
碰撞奖励函数定义为:
其中,d是与周围物体的最小距离;D巡检无人机通过控制速度和方向实现避障,以此建立碰撞奖励函数,碰撞奖励函数的计算公式为:r
其中,r
每个Q网络分支的奖励函数都有一个相应的Q值函数;Q损失函数可更新为:
其中,L