1.一种基于深度学习的交警手势识别方法,其特征在于,包括:(1)制作训练数据集:
针对每一种交警手势采集多段视频数据,将每一段视频数据记作视频段V={F0,F1,...Fp,...Fn},形成训练数据集;其中,Fp表示第p帧图像数据,每一个视频段V均对应单一语义的交警手势,并对相同交警手势所对应的视频段赋予同一指令标注;
(2)离线训练数学模型:
a、针对每一个视频段V,分别采用以下步骤生成对比结果:使用光流提取网络MotionNet模型提取出视频段V中相邻帧之间的光流特征图,形成光流特征集;
根据光流特征集和视频段V中的帧图像数据,利用卷积神经网络VGG16模型计算出时间流特征图和空间流特征图;
对时间流特征图和空间流特征图进行卷积融合,生成融合结果;
将融合结果与视频段V所对应的指令标注进行对比,生成对比结果;
b、计算对比结果的误差率,直到误差率降低到预期值以下时,停止训练,保存训练后的光流提取网络MotionNet模型和卷积神经网络VGG16模型;
(3)识别交警手势:
拍摄现场的交警手势,生成手势视频v;
使用训练后的光流提取网络MotionNet模型提取出手势视频v中相邻帧之间的光流特征图,形成光流特征集;
根据手势视频v中的帧图像数据及其对应的光流特征集,使用训练后的卷积神经网络VGG16模型计算时间流特征图和空间流特征图,并通过卷积融合生成手势识别结果。
2.根据权利要求1所述的基于深度学习的交警手势识别方法,其特征在于,在所述制作训练数据集的过程中,在不同天气条件下的不同时间段,针对每一种交警手势进行视频数据的多次采集,形成多个视频段V,构成所述训练数据集。
3.根据权利要求1所述的基于深度学习的交警手势识别方法,其特征在于,在所述使用光流提取网络MotionNet模型提取出视频段V中相邻帧之间的光流特征图,并形成光流特征集的过程中,包括:(3-1)针对视频段V中的每一对相邻帧图像数据Fp与Fp+1,利用光流提取网络MotionNet模型提取出每一对相邻帧之间的光流特征图;
(3-2)利用相邻帧之间的光流特征图以及后一帧图像数据Fp+1,反向计算出前一帧图像数据Fp';
(3-3)针对每一帧图像计算Fp'与Fp之间的误差L;
(3-4)以L作为MotionNet模型的目标函数进行反向传播,迭代至L收敛时停止MotionNet模型的训练;
(3-5)利用训练后的MotionNet模型提取出每一对相邻帧之间的光流特征图,形成光流特征集。
4.根据权利要求3所述的基于深度学习的交警手势识别方法,其特征在于,在所述计算Fp'与Fp之间的误差L的过程中,包括:计算像素误差
其中,N为一帧图像的总像素个数,n为一帧图像的像素行数,m为一帧图像的像素列数;
ρ为Charbonnier误差;Fp(i,j)代表第p帧图像中第i行、第j列的像素值; 为第i行、第j列像素在水平方向的光流特征值, 为第i行、第j列像素在垂直方向的光流特征值,代表第p+1帧图像中第 行、第 列的像素值;
计算孔径误差
其中, 分别表示水平光流在水平与垂直方向上的梯度; 分别表示垂直光流在水平与垂直方向上的梯度;
计算结构相似性误差
其中,Fp'(i,j)为Fp'在第i行、第j列的像素值;SSIM为结构相似性函数;
计算误差L=λ1·Lpixel+λ2·Lsmooth+λ3·Lssim;
其中,λ1、λ2、λ3为加权系数,且λ1+λ2+λ3=1。
5.根据权利要求1所述的基于深度学习的交警手势识别方法,其特征在于,在计算所述时间流特征图和空间流特征图的过程中,包括:针对每一个视频段V及与其对应的光流特征集,采用等间隔分段、段内随机采样的方法,提取出M帧图像数据和M个光流特征图,分别形成帧集合和特征集合;
将特征集合中的光流特征图作为时间流VGG16模型的输入,将帧集合中的帧图像数据作为空间流VGG16模型的输入,分别进行五组卷积池化后,计算出时间流特征图和空间流特征图。
6.根据权利要求1至5中任一项所述的基于深度学习的交警手势识别方法,其特征在于,在所述识别交警手势的过程中,在提取出手势视频v所对应的光流特征集后,根据光流特征图获取手势视频v中交警手势的起止帧,包括:设手势视频v中的前后两帧图像数据在垂直方向的光流特征矩阵分别为Y1、Y2;
计算差值矩阵W=Y2-Y1;
计算差值矩阵W的L21范数;
当L21范数大于设定阈值时,判定当前帧为交警手势的起止帧。
7.根据权利要求6所述的基于深度学习的交警手势识别方法,其特征在于,从所述手势视频v中提取出介于所述起止帧之间的帧图像数据,形成帧集v’;
从所述手势视频v所对应的光流特征集中提取出介于所述起止帧之间的帧图像数据所对应的光流特征图,形成特征集T’;
对所述帧集v’和特征集T’,采用等间隔分段、段内随机采样的方法,提取出M帧图像数据和M个光流特征图;
将所述M个光流特征图作为训练后的时间流VGG16模型的输入,将所述M帧图像数据作为训练后的空间流VGG16模型的输入,分别进行五组卷积池化后,在VGG16模型的ReLU_6层处,对计算出的时间流特征图和空间流特征图进行卷积融合,生成手势识别结果。
8.一种无人车,其特征在于,包括:
摄像头,其用于拍摄现场的交警手势,生成手势视频v;
车载工作站,其接收所述手势视频v,并使用其存储的经训练后的光流提取网络MotionNet模型提取出手势视频v中相邻帧之间的光流特征图,形成光流特征集;然后,根据手势视频v中的帧图像数据及其对应的光流特征集,使用其存储的经训练后的卷积神经网络VGG16模型计算时间流特征图和空间流特征图,并通过卷积融合生成手势识别结果;
自动操控台,其根据所述手势识别结果控制无人车遵循交警手势行驶。
9.根据权利要求8所述的无人车,其特征在于,所述经训练后的光流提取网络MotionNet模型和经训练后的卷积神经网络VGG16模型采用以下方式生成:制作训练数据集:针对每一种交警手势采集多段视频数据,将每一段视频数据记作视频段V={F0,F1,...Fp,...Fn},形成训练数据集;其中,Fp表示第p帧图像数据,每一个视频段V均对应单一语义的交警手势,并对相同交警手势所对应的视频段赋予同一指令标注;
离线训练数学模型:
a、针对每一个视频段V,分别采用以下步骤生成对比结果:使用光流提取网络MotionNet模型提取出视频段V中相邻帧之间的光流特征图,并形成光流特征集;
根据光流特征集和视频段V中的帧图像数据,利用卷积神经网络VGG16模型计算出时间流特征图和空间流特征图;
对时间流特征图和空间流特征图进行卷积融合,生成融合结果;
将融合结果与视频段V所对应的指令标注进行对比,生成对比结果;
b、计算对比结果的误差率,直到误差率降低到预期值以下时,停止训练,保存经训练后的光流提取网络MotionNet模型和卷积神经网络VGG16模型至所述车载工作站。
10.根据权利要求8或9所述的无人车,其特征在于,所述车载工作站通过所述摄像头监测无人车到路口的距离,当无人车行驶至路口前30米时,车载工作站控制摄像头以30fps的帧率拍摄路口图像,形成手势视频v。