1.一种基于RGB-D相机的卷积神经网络目标检测方法,其特征在于该方法的具体步骤是:步骤(1):利用RGB-D相机获取彩色图像和深度图像
使用RGB-D相机对于包含目标物体的场景进行拍摄,得到一张彩色图像和与彩色图像像素一一对应的深度图像;
步骤(2):利用卷积神经网络对于目标物体位置进行预测
(a)先收集包含目标物体的数据集,手工标定目标框,使目标框刚好能包含目标物体;
统计数据集中目标框的长宽比,利用k均值聚类产生k个长宽比例值;然后产生k个面积为1的锚框,锚框的长宽比分别对应于聚类产生的k个值,就得到k个形状不一的锚框;
(b)将彩色图片输入卷积神经网络,产生预测结果参数;预测结果参数为若干组五维向量参数,为N×k×(score,cx,cy,dw,dh),其中N表示卷积神经网络最后一层特征图上的像素点的个数,k表示锚框数量,score表示网络输出在当前位置区域的预测框存在物体的置信值,cx和cy分别表示预测框中心点的坐标,dw和dh表示在当前位置对于某个特定锚框长宽的修正量;利用以下公式,对锚框的形状进行修正,就可以得到一个面积为1的预测框:其中Pw和Ph表示锚框的长和宽, 和 表示面积为1的预测框的长宽;
经过以上步骤,将彩色图片输入到卷积神经网络,得到一系列的预测框,每个预测框包含置信值,中心坐标和长宽;选取一个阈值,将置信值低于该阈值的预测框除去,就能滤除大量不包含物体的预测结果;
步骤(3):求解从深度值到目标物体尺寸的映射关系模型
利用卷积神经网络得到目标物体中心坐标,将其映射到深度图上;得到物体中心点深度值,也就是物体与摄像头沿相机光轴的距离h;假设摄像头的焦距为f,目标物体的尺寸为l,目标物体在相机成像平面上的投影为s,即为尺度因子;根据相似三角形的性质,得到s如下:s与h之间存在反比关系,利用步骤(1)中得到的图库,得到多组(s,h)关系对,利用线性回归算法求得f与l的乘积值,得到一个从深度到物体尺寸的反比模型;
步骤(4):产生带尺度的预测框
利用步骤(2)中产生的目标物体的中心位置,找到深度图像上对应位置的深度信息,并利用步骤(3)中的模型关系得到尺度因子s;将s与步骤(2)中的面积为1的预测框的长宽相乘,得到带尺度的预测框;
步骤(5):利用soft-NMS算法去除多余的预测框
经过以上步骤,在同一个物体上容易产生多个带尺度的预测框;利用soft-NMS算法去除多余的带尺度的预测框,保留一个预测结果;设S1和S2分别为两个预测框的面积,ΔS为两个预测框重合的面积,定义IoU为:将预测结果中所有的预测框按置信值从大到小排序,依次选取目标框,并选取出排在当前预测框之后并且与当前预测框IoU大于设定阈值的预测框,认为他们都是对于同一物体的预测;对所有同一物体的预测框做加权平均,公式如下:其中boxj表示第j个预测框的参数,包括中心坐标和长宽;利用当前计算的box值作为最终预测框的信息,并去掉其他在当前这一物体上的预测框,就得到最终的预测结果;
步骤(6)得到最终目标物体的空间位置
再在深度图中找到目标框的位置,计算目标框中所有像素点的平均深度值,得到目标物体的深度;利用物体中心坐标和平均深度值,结合相机的内部参数,得到最终物体的空间位置。