1.一种基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,包括以下步骤:将护林员巡护路径规划问题转化为MADDPG算法学习问题,并进行问题的转化定义,包括:对巡护区域进行栅格化,将每个栅格点的坐标及对应的栅格属性作为智能体所处的状态,定义智能体在栅格化巡护区域具有的总计动作以确定输出动作的维度,依据巡护区域的属性特征定义奖励函数;
依据护林员巡护路径规划问题特性对包含演员网络和评论家网络的MADDPG算法进行改进,包括:修改演员网络输出层的激活函数为适用于离散多分类的激活函数,依据演员网络的输出动作的最大概率、输出动作的选择概率和评论家网络输出的状态‑动作值构建演员网络的损失函数;在评论家网络中添加门控循环单元,改进后的评论家网络结构包括:输T入层:输入m个所有智能体经过状态填充后的状态序列X=[x1,x2,...,xm];
隐藏层1:处理状态序列的门控循环单元层,设置状态序列的填充部分不参与训练以排除填充部分的影响,得到最后一步的输出 其中h1为GRU的神经元个数;
隐藏层2:利用concat函数连接门控循环单元层的输出H和矩阵F,F表示当前智能体的m×1 m×n状态集S∈R 以及所有智能体执行的动作集A∈R ,n为智能体个数,得到输出矩阵X1=concat(H,S,A)=[H S A];
隐藏层3和隐藏层4:分别为全连接层和归一化层,其输出分别为 和
其中h2和h3分别表示各层的神经元个数;
隐藏层5和隐藏层6:分别为全连接层和归一化层,其输出分别为 和
其中h4和h5分别表示各层的神经元个数;
m×1
输出层:采用全连接层,其输出为智能体的状态‑动作值,记作Y∈R ;
根据问题的转化定义和改进的MADDPG算法,进行改进的MADDPG算法的强化学习,依据多个智能体输出的最大概率动作值规划多个护林员的巡护路径。
2.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,每个栅格点对应的栅格属性表示地理位置的状态属性,包括障碍、坡度、巡护重点、目标点、出界;
定义智能体在栅格化巡护区域具有的总计动作为8个动作,分别代表当前栅格点对应的前、后、左、右、左前、右前、左后、右后八个方向的前进工作,确定输出动作的维度为8。
3.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,依据巡护区域的属性特征定义奖励函数r为:其中,s′代表下一状态,s代表智能体的状态,S表示所有智能体经历过的状态集,terminal、obstacle、out、high slope、key分别代表目标点、障碍点、出界、高坡度点和巡护重点,当s′的栅格属性为目标点时智能体得到奖励值1;当s′的栅格属性为障碍点或出界时智能体得到奖励值‑0.4;当s′的栅格属性为高坡度点时奖励值为‑0.2;当s′的栅格属性为巡护重点且s′不在S中时奖励值为0.3;当s′的栅格属性为巡护重点和高坡度点且s′不在S中时奖励值为0.1;当s′的栅格属性包含巡护重点和高坡度点且s′在S中时奖励值为‑0.4;
其他情况下,设定奖励值为‑0.02,其中,巡护重点包括上报事件点或珍稀动植物资源点。
4.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,修改演员网络输出层的激活函数为gumbel‑softmax函数。
5.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,依据演员网络的输出动作的最大概率、输出动作的选择概率构建演员网络的损失函数L为:其中,yi表示演员网络输出的最大概率的动作值, 表示演员网络输出各动作的选择概率,r表示由评论家网络输出的状态下选择动作yi的状态‑动作值,i为智能体的索引,n为智能体的个数。
6.如权利要求4所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,依据演员网络的输出动作的最大概率、输出动作的选择概率构建演员网络的损失函数L为:其中,yi表示演员网络输出的最大概率的动作值, 表示演员网络输出各动作的选择概率,r表示由评论家网络输出的状态下选择动作yi的状态‑动作值,i为智能体的索引,n为智能体的个数。
7.如权利要求1~6任意一项所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,对巡护区域进行栅格化后,将栅格化的巡护区域依据上报事件点、珍稀动植物资源点、坡度分布情况以及行政乡镇面积和分布情况进行主、次巡护区域的划分,并将主巡护区域划分多个子巡护区域,在每个巡护区域布置多个护林员,将护林员看成MADDPG算法中的智能体,依据改进的MADDPG算法进行护林员巡护路径的规划。
8.一种基于改进的MADDPG算法的护林员巡护路径规划装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~7任一项所述的基于改进的MADDPG算法的护林员巡护路径规划方法。