1.面向无人驾驶的前背景编解码器网络目标提取方法,其特征在于,该方法首先获取无人驾驶场景的视频数据集合,然后进行以下操作:步骤(1).对视频采样,获得帧序列,构建包括编码器、非局部模块和解码器的前景网络和背景网络;具体方法是:
(1‑1).对视频进行均匀采样,获得对应的m帧RGB帧图像集合 帧图像的宽为w,高为h,通道数为3;
(1‑2).构建前景网络与背景网络,这两个网络是具有相同结构的孪生网络,由编码器、非局部模块和解码器级联组成;
所述的编码器由残差网络构成,去除残差网络最后的全局池化层和全连接层,且通过空洞卷积放大网络中间层的特征尺寸,其输入为帧图像,输出为特征表示;
所述的非局部模块由多种矩阵操作组成,包括矩阵点积和逐元素乘积,输入为编码器产生的特征表示,输出为加权后的特征表示;
所述的解码器由上采样与残差网络的基础模块组成,输入为非局部模块产生的加权特征表示,输出为帧图像每一像素的类别概率,即网络输出的预测结果;
步骤(2).依次处理帧图像,经过扩张和侵蚀处理获得放大和缩小的目标掩膜,并据此分别得到前景帧图像和背景帧图像;
步骤(3).将前景帧图像和背景帧图像分别输入前景网络和背景网络的编码器,获得前景特征表示和背景特征表示;
步骤(4).将前景特征表示和背景特征表示分别输入前景网络和背景网络的非局部模块,获得对应的加权特征表示;具体方法是:F B
(4‑1).将视频首帧的前景帧图像F1 和背景帧图像F1按照步骤(3)的处理分别获得前景特征表示 和背景特征表示
(4‑2).将视频首帧经过前景网络获得的最后一个特征表示 与当前第i张帧图像经过前景网络获得的最后一个特征表示 并列输入到非局部模块,通过点积与加权操作获T
得加权特征表示yk: f(ak,bl)=θ(ak)φ(bl);其中a对应特征表示b对应特征表示 k、l是特征表示在高度和宽度上的下标;y为非局部模块的输出张量,其维度与特征表示相同;Z为归一化常数,函数θ(·)、φ(·)、g(·)均表示单个卷积层,F
并将前景网络获得的加权特征表示记为y,其维度与 相同;
B
采用相同操作,背景网络获得加权特征表示y,其维度与 相同;
步骤(5).将加权特征表示分别输入前景网络和背景网络的解码器,获得对应的预测掩膜并通过加权求和获得视频目标提取结果。
2.如权利要求1所述的面向无人驾驶的前背景编解码器网络目标提取方法,其特征在于,步骤(2)具体方法是:
(2‑1).对视频首帧即视频第一帧图像F1,其目标掩膜矩阵 预先给定,即第一帧图像的所有像素类别已知,M1的元素取值为{0,1},0表示对应的像素属于背景,1表示对应的像素属于前景即目标像素;使用目标掩膜M1提取视频首帧图像的前景区域和背景区域,其中M1矩阵零元素值区域为背景区域,非零元素值区域为前景区域,通过将非零元素值F
区域和零元素值区域对应的首帧图像F1的RGB通道的值置零,分别获得前景帧图像F1 和背B
景帧图像F1;
所述的目标掩膜是指对应帧图像的目标类别矩阵,记为标注集合{Mi|i=1,..,m},其中是宽为w、高为h的矩阵,Mi的元素取值为{0,1},0表示对应的像素属于背景,1表示对应的像素属于前景即目标像素,训练阶段每一视频帧图像都有对应的目标掩膜,使用第一帧掩膜作为输入,测试阶段仅给出视频首帧的目标掩膜;
(2‑2).对视频的第i′张帧图像Fi′,i′=2,..,m,其前一帧的前景网络预测结果为即前景网络的输出矩阵,矩阵大小与帧图像相同,元素取值范围与目标掩膜相同,将 通过计算机视觉库中的扩张技术获得预测目标区域放大的预测结果 大小与 相F
同,放大参数为λdil,λdil为大于0的整数;对第二帧图像,其前一帧的前景网络预测结果P1直接使用首帧的目标掩膜M1;使用预测结果 中的目标位置信息将当前帧图像Fi′的非目标F
区域RGB通道的值设置为0,获得包含目标的前景帧图像Fi′;
(2‑3).对视频的第i′张帧图像Fi′,i′=2,..,m,其前一帧的背景网络预测结果为即背景网络的输出矩阵,矩阵大小与帧图像相同,元素取值范围与目标掩膜相同,将 的元素值取反,即0与1互换,获得标准目标掩膜的矩阵表示形式,并通过计算机视觉库中的侵蚀技术获得预测目标区域缩小的预测结果 大小与 相同,缩小参数为λero,λeroB
为大于0的整数;对第二帧图像,其前一帧的背景网络预测结果P1直接使用首帧的目标掩膜M1;使用预测结果 的目标位置信息将当前帧图像Fi′中的目标区域RGB通道的值设置为0,B
获得背景帧图像Fi′。
3.如权利要求2所述的面向无人驾驶的前背景编解码器网络目标提取方法,其特征在于,步骤(3)具体方法是:
F
(3‑1).将前景帧图像Fi输入到前景网络中的编码器,i=1,..,m,获得四个阶段的特征表示,记为: 其中i对应处理的帧图像序列下标,上标F表示特征属于前景网络;c1、w1、h1,c2、w2、h2,c3、w3、h3,c4、w4、h4,分别为对应特征表示的通道、宽度与长度;
B
(3‑2).将背景帧图像Fi输入到背景网络中的编码器模块,i=1,..,m,获得四个阶段的特征表示,记为: 其中i对应处理的帧图像序列下标,上标B表示特征属于背景网络。
4.如权利要求3所述的面向无人驾驶的前背景编解码器网络目标提取方法,其特征在于,步骤(5)具体方法是:
(5‑1).解码器由三个调优模块组成,调优模块的输入为对应解码器产生的特征表示与上一调优模块的输出特征表示,通过上采样与残差网络的基础模块操作,输出放大尺寸后的特征表示;
F
(5‑2).对前景网络的解码器,将(4‑2)中的加权特征表示y与(3‑1)中的前景网络编码F
器第三阶段的特征表示 输入到第一个调优模块,其中y通过双线性插值使得其宽度与长度与 相同并获得第一个调优模块的上采样特征表示 通道方向的尺寸不变; 通过残差网络的基础模块获得第一个调优模块的残差特征表示 其维度与 相同;将与 沿通道方向拼接并通过残差网络的基础模块获得第一个调优特征表示 其维度与 相同;
(5‑3).将第一个调优特征表示 与(3‑1)中的前景网络编码器第二阶段的特征表示输入到第二个调优模块,其中 通过双线性插值使得其宽度与长度与 相同并获得第二个调优模块的上采样特征表示 通道方向的尺寸不变; 通过残差网络的基础模块获得第二个调优模块的残差特征表示 其维度与 相同;将 与 沿通道方向拼接并通过残差网络的基础模块获得第二个调优特征表示 其维度与 相同;
(5‑4).将第二个调优特征表示 与(3‑1)中的前景网络编码器第一阶段的特征表示输入到第三个调优模块,其中 通过双线性插值使得其宽度与长度与 相同并获得第三个调优模块的上采样特征表示 通道方向的尺寸不变; 通过残差网络的基础模块获得第三个调优模块的残差特征表示 其维度与 相同;将 与 沿通道方向拼接并通过残差网络的基础模块获得第三个调优特征表示 其维度与 相同;
(5‑5).将第三个调优特征表示 通过单个卷积层将通道维度缩减为1,然后对其使用Sigmoid(·)函数归一化,获得前景网络中预测掩膜的概率表示矩阵 素取值为0‑1;采用相同操作,背景网络获得其预测掩膜的概率表示矩阵(5‑6).前景网络的优化目标是使得预测掩膜的概率表示矩阵 与真实的目标掩膜Mi相近,背景网络的优化目标是使得预测掩膜的概率表示矩阵 与真实的目标掩膜Mi不同,其优化函数为 其中LF与LB均为交叉熵损失函数,λ是平衡权重常数,0<λ<1,通过随机梯度下降法进行网络模型的优化,获得优化后的前景网络和背景网络;
(5‑7).对新的给定视频及其首帧目标掩膜,使用优化后的前景网络和背景网络,获得前景网络预测掩膜的概率表示矩阵 和背景网络预测掩膜的概率表示矩阵 取反背景网络预测掩膜的概率值,并对前景网络预测掩膜的值进行加权平均,获得最终预测掩膜Pi[*,*]: 其中λp为加权参数,0<λp<1,[*,*]表示矩阵元素,预测掩膜包含视频帧图像的每一个像素所属类别,即像素属于背景或是目标区域,据此获得视频目标提取结果。