1.一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于包括以下步骤:
1)对多个不同物体进行3D扫描获得多个3D模型,基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集,训练数据集包括多张RGB图像,每张RGB图像中包含的物体种类数以及各类物体数量均随机生成,再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景;
2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息,矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸;
相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿;
3)建立Faster‑R‑CNN目标检测网络模型作为物体平移预测网络,将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息,计算预测矩形框信息与矩形框标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练;
4)建立ResNet50网络模型作为相机位姿预测网络,将RGB图像中的所有矩形框(2D bounding box)切割出图像外作为感兴趣区域(RoIs),将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强,数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息,计算相机位姿预测信息与相机位姿标签信息的损失函数值,迭代训练直至损失函数值最小,完成相机位姿预测网络的建立;
5)将待测物体放置在摄像头的视场内,摄像头与虚拟相机的内参相同,摄像头获取待测物体运动的视频流,将视频流的逐帧图像进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息,根据预测矩形框信息获得待测物体的平移信息;再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息,将相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息;
步骤5)所述的相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,具体是:
根据获得的相机位姿预测信息计算摄像头在物体坐标系中的旋转矩阵Ro,再求得旋转矩阵Ro的逆矩阵获得待测物体在相机坐标系下的旋转矩阵Rc,旋转矩阵即为旋转信息。
2.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:所述的步骤3)中,对训练数据集进行数据增强具体是指:随机改变RGB图像的对比度、饱和度、色调、颜色空间转换,随机进行均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转,以模拟复杂的现实环境;所述的步骤4)中所述的数据增强,除不包括随机水平翻转和随机垂直翻转外其余均与步骤3)的数据增强相同。
3.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤3)所述的物体平移预测网络的损失函数L具体是:L=α1Lcls+α2Lbox (1)
式中,Lcls表示分类损失函数,Lbox表示矩形框的回归损失函数,Lcls和Lbox分别采用softmax loss和smooth L1 loss,α1、α2分别表示分类损失函数和回归损失函数的权重系数;
步骤4)所述的相机位姿预测网络的损失函数Lpose具体是:
Lpose=β1Lazimuth+β2Lelevation+β3Lrotation (2)
式中,方位角损失函数Lazimuth,仰角损失函数Lelevation以及绕主光轴的旋转角损失函数Lrotation均采用softmax loss,β1、β2、β3分别表示方位角损失函数、仰角损失函数、旋转角损失函数的权重系数。
4.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤5)所述的根据预测矩形框信息获得待测物体的平移信息,具体是:预测矩形框信息包括预测矩形框的中心坐标和宽高尺寸,将预测矩形框中心坐标的x坐标、y坐标分别作为平移信息的x轴、y轴平移分量,将矩形框的中心距离摄像头中心的距离作为z轴平移分量,x轴、y轴和z轴平移分量构成平移信息。
5.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤2)所述的相机位姿标签信息的获得具体是:以物体所在位置为中心建立物体坐标系,物体所在平面相互垂直的两个方向分别为x轴和y轴,垂直于物体所在平面的方向为z轴,相机的位姿变换均位于以物体为中心的半径已知的半球面上,虚拟相机分别绕物体坐标系的X轴、Y轴、Z轴旋转得到的旋转角、仰角、方位角共同构成虚拟相机在物体坐标系的相机位姿,虚拟相机通过在物体坐标下的位姿变换对该物体进行拍摄,从而生成该物体图像。