1.基于深度强化学习算法的自动泊车路径规划方法,其特征在于,包括如下步骤:S10、基于车辆运动学模型,通过深度强化学习算法在泊车库位模型中生成泊车动作数据集,所述深度强化学习算法中的神经网络生成不同泊车动作对应的概率分布;
S20、利用深度强化学习算法构建奖励函数,评价泊车动作数据集中泊车动作的质量,得到泊车动作质量最佳的数据;
S30、利用泊车动作质量最佳的数据更新深度强化学习算法中的网络参数,并运用更新后的深度强化学习算法进行下一次的迭代运算,直到泊车动作的策略评估优势函数收敛至最优时,完成泊车策略学习。
2.如权利要求1所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,所述通过深度强化学习算法在泊车库位模型生成泊车动作数据集,包括:将所述泊车库位模型的泊车库位环境信息作为输入信息数据,引入长短期记忆网络进行处理,并将得到的统一维度的泊车库位环境及车辆状态信息输送至所述深度强化学习算法中神经网络的输入端。
3.如权利要求2所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,在所述深度强化学习算法中神经网络的输入端还引入了随机噪声,可表示为:,其中,ReLU是Noisy_
D3QN算法的激活函数, 与 分别表示高斯分布中的参数标准差与均值, 为高斯分布中的随机噪声,W为噪声网络中用于存放随机噪声信息的矩阵参数,x为神经网络输入端的动作信息,b为噪声网络激活函数中的偏置bias。
4.如权利要求3所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,利用深度强化学习算法构建奖励函数,包括:采用奖励函数引导车辆的泊车姿态与路径,以行驶过程中车辆的转角、每一次碰撞检测点到终点的距离以及每一轮车辆的最终姿态为智能体设置约束性奖励函数,所述奖励函数为
,其中,
, ,
;
根据车辆距离泊车点的距离而定;
用于评定车辆位于泊车库位内最终姿态的奖励值,偏角越大,说明泊
车姿态越差,以此设定更大的惩罚项; 用于评定车辆泊车运动过程中转向角的奖励值,该值越大,说明车辆行驶过程中曲线越平稳,路径规划曲线越优;
、 、 、 和 为奖励函数参数;
为车辆终止泊车时,车辆坐标与库位坐标的相对位置信息;
为车辆终止泊车时,车辆的最终停靠姿态;
为车辆泊车运动过程中的转向角。
5.如权利要求4所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,所述利用泊车动作质量最佳的数据更新深度强化学习算法中的网络参数,包括:在所述深度强化学习算法中引入基于二叉树结构模型的优先经验回放机制。
6.如权利要求1‑5任一项所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,所述泊车动作的策略评估优势函数表示为:,
其中, 为状态值函数, 为动作值函数,a为动作值,s为状态值,表示车辆状态信息,包括车辆八个端点的坐标、最大车速比、车辆位姿旋转角以及车辆与泊车点的距离。
7.如权利要求2所述的基于深度强化学习算法的自动泊车路径规划方法,其特征在于,泊车库位模型的泊车库位环境信息的获取过程,包括:卫星导航系统通过自动驾驶车辆经由车载多天线传感器获得的车辆姿态和相对位置信息,利用惯性测量单元获取车辆的姿态、速度和加速度信息并经过INS解算单元得到车辆的位置、速度和姿态信息;采用卡尔曼滤波系统对获取的车辆的姿态、速度和加速度信息进行校正与降噪处理,并将得到的滤波结果反馈至INS解算单元,以修正惯性测量单元的读数误差。
8.一种基于深度强化学习算法的自动泊车路径规划系统,其特征在于,包括:泊车动作数据生成模块,基于车辆运动学模型,通过深度强化学习算法在泊车库位模型中生成泊车动作数据集,所述深度强化学习算法中的神经网络生成不同泊车动作对应的概率分布;
泊车动作质量评价模块,利用深度强化学习算法构建奖励函数,评价泊车动作数据集中泊车动作的质量,得到泊车动作质量最佳的数据;
泊车策略学习模块,利用泊车动作质量最佳的数据更新深度强化学习算法中的网络参数,并运用更新后的深度强化学习算法进行下一次的迭代运算,直到泊车动作的策略评估优势函数收敛至最优时,完成泊车策略学习。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于深度强化学习算法的自动泊车路径规划方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述的基于深度强化学习算法的自动泊车路径规划方法。