1.一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,准备阶段和检测阶段,其中准备阶段包括:基于时间与空间变化的驾驶员动态行为,利用机器学习算法训练得到驾驶员姿态检测模型,结合保护动机理论建立具有引导性质的安全预警机制;
检测阶段包括以下步骤:
视频获取步骤:通过车载单目摄像机获取驾驶员的驾驶视频;
关键点检测步骤:利用OpenPose关键点检测系统标记视频中每一帧图像中驾驶员的面部关键点和骨骼关键点,使问题规模从图像中的像素点转换为驾驶员姿态变化的关键点;
利用参考点重构并归一化处理后的关键点的初始化状态信息之间的拓扑关系提取驾驶员自然驾驶状态特征;
关键帧序列提取步骤:若驾驶员处于非自然驾驶状态,则进行关键帧提取。关键帧序列提取方法基于强化学习的方式,通过姿态检测模型反馈相应的奖励,并根据奖励和姿态变化更新动作价值函数。每一个非自然状态的发生都会更新动作价值函数,直到得到适用于每个驾驶员的稳定的关键帧提取策略。通过关键帧提取策略经过一定时间的自适应在线训练,得到最具代表性的关键帧序列;
姿态检测步骤:若驾驶员处于自然驾驶状态,则直接进行姿态检测;若驾驶员处于非自然驾驶状态,则进行关键帧提取,得到最具代表性的关键帧序列,并将其输入姿态检测模型;关键帧提取过程中若不满足关键帧提取策略,则放弃该时刻的关键帧提取,直接进行姿态检测;
安全预警步骤:根据姿态检测步骤得到的检测结果进行安全预警。
2.根据权利要求1所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述准备阶段基于时间与空间变化的驾驶员动态行为,利用机器学习算法训练得到驾驶员姿态检测模型,结合保护动机理论建立具有引导性质的安全预警机制,具体包括:所述姿态检测模型的训练包括从训练集中采集多帧不连续图像中的关键点作为姿态检测模型的多维度输入数据,该输入数据从空间和时间上对驾驶员的特征以关键点的形式呈现,以类别作为姿态检测模型的输出结果;
所述安全预警机制从驾驶员对社会和交通法规的认识程度上对其驾驶姿态进行解释,以驾驶员对于车内环境的响应本来引导其驾驶行为。
3.根据权利要求1所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述关键点检测步骤中,利用OpenPose关键点检测系统只选取12个最能表述驾驶员行为的关键点和68个面部关键点,输出其对应于图像中的坐标值。
4.根据权利要求3所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述关键点检测步骤中,OpenPose关键点检测系统将研究对象从视频中的每帧图像的全部像素点变成关键点数据,包括将视频中的每一帧图像建模成G(N,W,V),N向量为80个关键点对应的编号,W向量为80个关键点对应的相对于以脖子为原点的79个相对二维坐标值,V向量为W向量对应的关键点相对于原点的曼哈顿距离,各个变量为:Gq=(Nq,Wq,Vq) q=1,2…n
Nq=i i=1,2…80
Wq=(xi,yi)
i表示1-80个关键点,n表示某一动作的最大帧数、yo表示代表脖子关键点的坐标值、xo表示脖子关键点的坐标值、o表示脖子对应的关键点,x,y表示各个关键点对应的坐标值,q为对应的视频帧编号。
5.根据权利要求4所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述强化学习采用基于值的方法:通过不断地学习驾驶员状态的变化,优化对不同状态下的动作价值估计函数,从而直到模型收敛,获得最优动作控制策略,将关键帧的挑选过程建立为马尔可夫决策过程,马尔可夫决策过程包括动作、状态和奖励,其中状态s描述为驾驶员的状态发生改变时对应的图像帧,状态的变化通过向量V来描述状态s:s=φ(q,V)
动作a描述为对于图像的选择与忽略,奖励r通过动作检测模型检测得到的结果返回相应的奖励,通过优化不同状态下的动作价值函数Q,获得最优动作控制策略,动作价值函数的跟新表达式如下:Q(s,a)←Q(s,a)+α[r+γQ(s′,a′)-Q(s,a)]。
s←s′
α表示学习率、γ表示衰减值、s′表示相对于状态s的下一个状态、a′表示在状态s′下选择的动作。
6.根据权利要求4所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,动作检测模型可以准确识别4种状态下的驾驶员特征,分别为:一级不良驾驶状态、二级不良驾驶状态、正常驾驶状态和危险驾驶状态。
7.根据权利要求6所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述姿态检测模型根据机器学习得到,其训练规则可归纳为如下,包括:所述正常驾驶行为表述为驾驶员关键点信息相对于初始化信息变化不大;所述危险驾驶行为表述为驾驶员关键点信息相对于初始化信息发生大幅度波动;所述不良驾驶行为表述为驾驶员关键点信息相对于初始化信息发生小幅度波动,二级不良驾驶行为表述为驾驶员处于不良驾驶行为,且驾驶员的面部特征仍然处于正常驾驶状态;一级不良驾驶行为表述为驾驶员处于不良驾驶行为,且驾驶员的面部特征仍然处于非正常驾驶状态,所述面部特征处于正常状态表述为驾驶员目视驾驶前方。
8.根据权利要求1所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,所述关键点检测步骤后,利用面部关键点进行三次样条插值构建面部特征,进行驾驶员身份识别,将面部关键点进行三次样条插值后,得到表征眼睛、嘴巴、脸型的函数曲线,利用函数曲线体现的每一个驾驶员的特征来进行身份识别。
9.根据权利要求1所述的一种基于强化学习的驾驶员异常姿态监测方法,其特征在于,安全预警的实施具体包括:对一级不良驾驶行为采取紧急危险提醒预警并提醒行为主体接受该行为可能的法律惩罚;对二级不良驾驶行为,系统忽略,不采取危险提醒,但告知行为主体该行为的影响及相关行为的法律责任;对危险驾驶行为,采取紧急语音提醒,采取驾驶权转移处理;若系统仍旧检测不到驾驶员的自然驾驶状态,通过导航系统,实现自动求助最近的救护站。