1.一种考虑海浪干扰的无人艇回收分布式决策仿真系统,其特征在于,包括以下步骤:S1、在虚幻引擎中,搭建无人艇回收任务的仿真环境并完成对接舱体的3D建模,具体包括以下子步骤:S11、在仿真环境中,利用多个Gerstner波的叠加,实现复杂海况中的海浪环境的模拟;S12、将无人艇抽象为智能体,设计无人艇在离散动作空间下的运动控制器,动作空间中包含左转、右转、前进、后退、左前方向行进、右前方向行进、左后方向行进、右后方向行进以及无动作,共计九种可执行动作;S13、对与无人艇实现对接的舱体建模,对接舱上设置三个不共线的可观测点,作为环境中状态空间的一部分,无人艇可观测到对接舱体的实时相对位姿;S14、完成环境规则模块的搭建,包含智能体随机初始化生成位置、奖励机制设定、碰撞机制设定以及胜利和失败的判定条件设定;具体奖励函数设置,可由如下公式表示:式中:α,β,γ表示平衡距离变化与累计碰撞力对奖励影响的权重系数,‑ε表示船体损毁惩罚系数,‑μ表示出界惩罚系数,‑η表示翻船惩罚系数,φ表示终局奖励系数,α,β,γ,ε,μ,η,φ均为可调超参数,是常数,dt表示本次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,dt‑1表示上一次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,dmax表示无人艇与最终目标点限制的最大距离,距离超出dmax代表无人艇超出地图边界,Fc表示本轮任务中无人艇与对接舱产生过的累计碰撞力,累计碰撞力越大,产生的惩罚越大,Fmax表示累计碰撞力的上限,当Fc大于Fmax,判定本轮为负,给予‑ε的惩罚;当无人艇行驶开出地图边界,同样判负,给予‑μ的惩罚;当无人艇因为海浪或者碰撞造成船体打翻,判负并给予‑η的惩罚,如果最终任务胜利,给予φ的终局奖励;S2、基于DuelingNetwork算法,搭建智能体决策模块,针对本应用场景,优化神经网络结构,使决策模块具有短时记忆功能,可以让智能体在该模型下能更好的预测未来状态,具体包括以下子步骤:S21、分别记录过去四个时刻下对接舱与无人艇的相对位置,作为智能体的部分可观测的状态信息,计算每个时刻下三个观测点与无人艇的坐标之差:Pit(x,y,z)=Qit(x,y,z)‑Wt(x,y,z)式中:Qit(x,y,z)为对接舱可观测点的坐标,其中i表示为对接舱的第i个可观测点,t表示其为第t时刻的坐标,Wt(x,y,z)表示第t时刻的无人艇坐标,Pit(x,y,z)表示t时刻对接舱的第i个可观测点与无人艇的坐标差值;S22、将步骤S21所得全部相对位置信息展平处理,赋值到神经网络的节点中,作为智能体神经网络输入层的输入;S23、利用神经网络拟合优势函数和最优状态价值函数,网络节点的输出可评价动作的好坏,根据动作的评价可选择当前状态下最优动作;S24、使用优先经验回放机制,建立经验池,存入的信息为每一次通信所保存的四个时刻的环境状态、执行动作、环境奖励以及状态转移后新的环境状态,训练神经网络时根据每条经验重要性的不同,赋予不同采样概率,并且依照概率分布随机抽取经验;S3、建立强化学习控制器与仿真环境的分布式通信系统,将控制器置于服务器端,仿真环境置于服务端,具体包括以下子步骤:S31、将强化学习控制器置于服务器端,服务器端共包含两条线程,主线程接收来自于仿真环境四个时刻的环境信息,完成神经网络的前向传播,计算最终智能体所需执行动作的编号,并将该条经验存入经验池;线程2负责从经验池取出数据,完成神经网络的前向传播与反向传播,实现智能体的异步训练;S32、将仿真环境置于客户端,每四分之一个通信时间,采样一次环境状态信息,并将相关信息存入状态数组,通信时接收服务器端传来的动作指令,并将状态数组传至服务器端;S4、启动服务器与客户端,开启智能体训练与控制,具体包括以下子步骤:S41、启动服务器端,等待客户端连接;S42、启动客户端,环境初始化,随机初始化智能体的生成位置;S43、客户端向服务器发送连接请求,建立连接;S44、开启AI控制,开启一轮任务的训练,服务器与客户端每隔0.8秒通信一次,交互数据;S45、根据环境规则下的判定条件,判断训练是否结束,给予终局奖励或失败惩罚,开启下一轮训练并重复执行S41到S45,如果断开通信连接,执行S46;S46、保存训练好的神经网络模型,方便应用于下次训练。