1.一种基于光流信息的无监督视频目标分割方法,其特征在于,包括以下步骤:
步骤1,构建基于光流信息的视频目标分割网络;
所述的视频目标分割网络包括两条分支,分别为外观特征提取分支和运动特征提取分支,具体是由外观特征模块,运动特征模块,以及共享的多源信息聚合模块和目标解码模块构成,其中外观特征提取分支用来提取当前帧的空间图像特征,而运动特征提取分支用来提取光流图中的运动信息,多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合,目标解码模块用来还原特征图信息;两个特征提取分支的输入不同,由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片,而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像,如果当前帧是第一帧,那么两个分支的输入都是当前视频帧;
所述的视频目标分割网络具体处理流程如下:
外观特征提取分支由4个外观特征模块组成,分别记为M1,M2,M3和M4,运动特征提取分支也是由4个运动特征模块组成,分别记为N1,N2,N3和N4,以上这些模块都是按照次序执行的;多源信息聚合模块有3个,分别记为D1,D2和D3,目标解码模块有4个,分别记为B1,B2,B3和B4; D1的输入为M4和N4的输出特征图,D2的输入为M3,N3和B1的输出特征图,D3的输入为M2,N2和B2的输出特征图; B1的输入是D1的输出,B2的输入是D2的输出,B3的输入是D3的输出,B4的输入是B3的输出;
步骤2,使用视频帧数据集和视频帧对应的光流图,训练视频目标分割网络;
步骤3,利用光流图和当前视频帧生成目标伪标签,使用伪标签损失计算网络输出的分割结果与目标伪标签误差;
步骤4,根据伪标签损失误差,通过反向传播更新视频目标分割网络的参数,重复步骤2到步骤4,直至模型收敛;
步骤5,利用训练好的模型实现视频目标分割。
2.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:多源信息聚合模块和目标解码模块的具体流程为:D1的具体流程是先将M4和N4的输出特征图进行特征相加,再进行1×1分组卷积来信息整合;D2的具体流程是先将M3和N3的输出特征图进行特征相加,然后将得到的特征图与B1的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数;D3的具体流程是将M2和N2的输出特征图进行特征相加,然后将得到的特征图与B2的输出特征图特征拼接,再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数;B1的具体流程是使用3×3深度卷积对D1的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B2的具体流程是使用3×3深度卷积对D2的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B3的具体流程是使用3×3深度卷积对D3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积来调整特征图的通道数;B4的具体流程是使用3×3深度卷积对B3的输出进行处理,然后使用一个双线性上采样层来还原特征图信息,最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小,用于区分视频目标中的前景与背景。
3.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块的具体构成如下:
每个外观特征模块中包含有多个外形特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支只包括一个3×3平均池化,这两条分支同时处理输入特征图,然后这两条分支的输出进行特征图的相加得到外观特征提取卷积块的最终输出;这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
4.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块的具体构成如下:
每个运动特征模块中包含有多个运动特征提取卷积块,其中的卷积块采用残差结构,有两条分支,第一条分支包括5×5卷积,1×1分组卷积,3×3深度卷积和1×1分组卷积,而第二条分支中有两个小分支,其中一个小分支是3×3平均池化,另一个小分支是3×3最大池化,将这两条小分支的进行特征图拼接,然后使用1×1分组卷积输出通道数为1的特征图;将两条主分支输出的特征图进行特征图相乘得到最终输出,有助于网络对特征显著位置的学习,这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu,而1×1分组卷积使用的激活函数是Relu。
5.如权利要求3所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述外观特征模块中卷积块的设置:M1,M2,M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积和3×3平均池化的步长为1。
6.如权利要求4所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述运动特征模块中卷积块的设置:N1,N2,N3和N4中的第一个运动特征提取卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为2,用于缩小特征图的高宽,其余的卷积块中的5×5卷积,3×3最大池化和3×3平均池化的步长为1。
7.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述步骤2中的光流图的生成方法,在训练过程中使用的是已经生成好的光流图以提升训练的速度,而在应用过程中采用在线生成光流图的方式。
8.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法,其特征在于:所述步骤3中的伪标签损失函数:
;
公式中Ft代表视频目标分割网络最终的预测特征图,Gt代表根据当前帧和当前帧对应的光流图生成的伪目标标签,n代表当前视频帧的帧数,ε代表伪标签误差的第二部分权重系数,如果当前帧为第一帧,则伪目标标签为初始设定的一个矩形区域。