1.新型Faster R‑CNN网络模型,其特征在于,包括:
VGG16深度卷积神经网络层,其用于对传入的图像进行多次卷积操作,并生成特征提取图像;
RPN网络层,其用于获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息;
所述网络模型的训练方法包括如下步骤:
S1,输入原始图像,然后通过VGG16深度卷积神经网络对图像进行多次卷积操作和池化操作,获得预设规格的特征提取图像;
S2,RPN网络获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息;
其中,步骤S1具体包括如下步骤:
S1.1,输入原始图像;
S1.2,对输入的图像进行第一次卷积,通过定义64个规格为3×3大小的卷积核对输入的原始图像进行两次卷积操作,使输入的原始图像维度变为intlen×intlen×64,令其在图像原大小不变的情况下,深度信息变成64,然后经过一次池化操作后,池化图像维度变为原图intlen×intlen×64,其长宽大小变为原始图像的二分之一;
S1.3,进行第二次卷积,通过定义128个规格为3×3大小的卷积核对步骤S12生成的图像进行两次卷积操作,使图像在大小不变的情况下,深度信息变为128,然后经过一次池化操作后,池化图像长宽大小变为原始图像的四分之一;
S1.4,进行第三、四、五次卷积,其均通过定义512个规格为3×3大小的卷积核,分别进行三次卷积操作和一次池化操作后,使池化图像在大小不变的情况下,深度变成512,第三、四、五次卷积的卷积操作后,经过一次池化操作,获得的池化图像得长宽大小分别变为原始图像的八分之一、十六分之一、三十二分之一;
另外,步骤S2中,RPN网络层获取特征图像后的具体操作步骤如下:
S2.1,采用3*3大小的卷积核再次对特征图像进行卷积操作,卷积核数目为512;
S2.2,采用特征图像中的每个像素点为中心形成锚点,以预设尺寸和长宽比例的矩形框进行选取的方式来选取候选框;
S2.3,RPN网络层中的Cls_layer层对选取出来的总候选框个数进行判别,得到该候选框内的是背景还是对象的分数;RPN网络层中的Reg_layer层对选取出来的总候选框个数进行回归操作,用来提取出对象在原始图像中所对应的位置关系。
2.如权利要求1所述的新型Faster R‑CNN网络模型,其特征在于,所述的RPN网络层包括:Cls_layer层,其用于获取特征提取图像并判别该特征提取图像中的背景和物体;
Reg_layer层,其用于获取特征提取图像和回归该特征提取图像中物体所在的位置信息。
3.如权利要求1所述的新型Faster R‑CNN网络模型,其特征在于,所述的VGG16深度卷积神经网络层包括N个卷积层和设置在N个卷积层对应下一级的N个池化层,其中,卷积层在卷积操作后均将数据输送至对应的池化层进行池化操作,另外,N≥1。
4.如权利要求1所述的新型Faster R‑CNN网络模型,其特征在于,步骤S1中VGG16深度卷积神经网络均采用3x3规格的卷积核对输入的原始图像进行特征提取操作,其中,定义滑移步长为1,通过遍历的方式让卷积核在原始图像上进行滑移,每次滑移步长为1,其公式为:outlen=[Intlen‑filterlen+1]/stride
其中,Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
5.如权利要求4所述的新型Faster R‑CNN网络模型,其特征在于,步骤S2.2中,矩形框的指定初始基本固定尺寸为128x、256px或512px,其长宽比例为0.5、1或1.5,且该基本固定尺寸和长宽比例的形成9个组合,其计算公式为:num=len(anchor_scales)·len(anchor_ratios),其中,len(anchor_scales)为固定尺寸个数,len(anchor_ratio)为比例尺寸个数。
6.如权利要求5所述的新型Faster R‑CNN网络模型,其特征在于,步骤S2.3中,Cls_layer层采用1×1的卷积核对候选框进行全卷积操作,卷积核个数为2k个,其用于输出预设个深度的特征图图像,将其重新定义为深度仅为2个深度的图像,得到每个候选框内背景的概率分数和对象的概率分数;
Reg_layer层以1×1的卷积核对候选框进行卷积操作,卷积核个为4k个,其用于对选取出的总候选框个数进行回归操作,以提取出对象在原始图像中所对应的位置关系。
7.如权利要求1所述的新型Faster R‑CNN网络模型,其特征在于,所述的原始图像包括从视频流中拆分成的帧图像。