1.利用多频动态空洞卷积的视频语义分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:
步骤(1)对视频采样获得视频帧,并进行增强操作,然后输入至编码器,即深度卷积神经网络,获得对应的浅层视觉特征图;
步骤(2)构建特征频率分离模块,输入为浅层视觉特征图,输出多频特征图;
步骤(3)构建动态空洞卷积模块,输入为多频特征图,输出多频高层语义特征图;
步骤(4)将多频高层语义特征图输入解码器即上采样卷积模块,获得视频帧的分割掩膜;
步骤(5)迭代训练由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型直至收敛,然后将新视频输入至该模型得到对应的语义分割结果。
2.如权利要求1所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(1)具体是:
(1‑1)对单个视频进行均匀采样获得视频帧,采样率为10~15帧/秒,并对其进行增强操作得到数量为N的视频帧序列I,记为 其中Ii表示第i个视频帧, 表示实数域,3表示RGB通道数量,H表示视频帧高度,W表示视频帧宽度;
(1‑2)利用大型图像库ImageNet上预训练的卷积神经网络ResNet对视频帧序列I依次提取浅层视觉特征图 Cf表示特征图的通道数,Hf表示特征图高度,Wf表示特征图宽度;ResNet具有多个由卷积层组成的模块,fi为第i个视频帧经过RestNet前三个由多个卷积层组成的模块得到的特征图。
3.如权利要求2所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(2)具体是:
(2‑1)构建特征频率分离模块,利用图像具有频率可分离的特点,对浅层视觉特征图进行三次高低频特征分离操作获得多频特征图;其中,高频特征刻画特征图的轮廓区域,低频特征刻画特征图的平面区域,中频特征刻画特征图的内容区域;
(2‑2)高低频特征分离的具体操作如下:首先对浅层视觉特征图fi做快速傅里叶变换,将空域信号转换为频域信号得到fi的频谱图 将 中低频信号部分平移到中间得到平移频谱图 确定 的中心 位置 向 量 (P ,Q) ;其 中 , 通道 中心 点的 横 坐标 值组 成的 向 量纵坐标值组成的向量 下标r表示
的通道索引;
然后将 中每个元素与低频转移函数Hl(ur,a,,vr,b)作乘法运算得到低频平移频谱图高斯低通滤波器的转移函数 l表示低频信号,a表示像素点横轴坐标值,b表示像素点纵轴坐标值,{0≤a≤Hf,0≤b≤Wf},exp(·)表示指数函数,D0是设定的标准差;其中, 表示 中第r个通道像素点(a,b)距离坐标点(Pr,Qr)的欧式距离,ur,a是 中第r个通道频谱位置(a,0)距离Pr的欧式距离,vr,b是 中第r个通道频谱位置(0,b)距离Qr的欧式距离;
同理,将 中每个元素与高频转移函数Hh(ur,a,,vr,b)作乘法运算得到高频平移频谱图其中h表示高频信号,
分别将频谱图 与 中的低频信号从中间平移回到原始位置,得到低频频谱图和高频频谱图
最后将 和 分别做快速傅里叶逆变换将频域信号转换为空域信号,得到弱低频特征图 和弱高频特征图
(2‑3)按照(2‑2),对弱高频特征图 进行第二次高低频特征分离操作,得到强高频特征图 和中高频特征图 hh表示特征图经过两次高频信号过滤,hl表示特征图先经过一次高频信号过滤,再经过一次低频信号过滤;
按照(2‑2),对弱低频特征图 进行第二次高低频特征分离操作,得到强低频特征图和中低频特征图 ll表示特征图经过两次低频信号过滤,lh表示特征图先经过一次低频信号过滤,再经过一次高频信号过滤;
(2‑4)将中高频特征图 和中低频特征图 进行一次拼接,经过一次大小为1×1的卷积操作得到压缩后的特征图,再经过步长为2的最大池化操作进行下采样得到中频特征图其中m表示中频信号, 为中频特征图的通道维度;
(2‑5)将强低频特征图 经过一次大小为1×1卷积操作得到压缩后的特征图,再经过步长为4的最大池化操作进行下采样得到低频特征图 将强高频特征图 经过一次大小为1×1卷积操作得到压缩后的高频特征图 其中,和 分别表示高频特征图和低频特征图的通道维度。
4.如权利要求3所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(3)具体是:
(3‑1)构建由一个权重计算器、K个并行的空洞卷积核组成的动态空洞卷积模块,将多频特征图分别输入到动态空洞卷积模块,得到多频高层语义特征图,包括低频高层语义特征图、中频高层语义特征图和高频高层语义特征图;
(3‑2)动态空洞卷积的具体操作如下:将低频特征图 输入到权重计算器得到输出K个权重 wt表示第t个空洞卷积的权重,0≤wt<1, 权重计算器由一次全局平均池化操作、一个全连接层、一个Relu函数、一个全连接层、一个Softmax函数组成;K个并行的空洞卷积核 Kt表示第t个空洞率为2的3×3空洞卷积;Kt分别与对应的权重wt做点乘运算,再将K个并行的空洞卷积相加得到集成空洞卷积核低频特征图 再与综合空洞卷积核 进行卷积操作得到低频高层语义特征图表示通道数 的两倍;
(3‑3)对动态空洞卷积模块串行叠加,第一个动态空洞卷积模块的输出作为第二个动态空洞卷积模块的输入;按照(3‑2),中频特征图 经过两个串行的动态空洞卷积模块得到中频高层语义特征图 表示通道数 的四倍;高频特征图 经过四个串行的动态空洞卷积模块得到高频高层语义特征图 表示通道数 的八倍。
5.如权利要求4所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(4)具体是:
(4‑1)构建由三个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,通过与输入的小尺寸特征图进行卷积操作得到大尺寸特征图;
(4‑2)将低频高层语义特征图 中频高层语义特征图 和高频高层语义特征图 进行通道维度上的拼接得到集成高层语义特征图(4‑3)将集成语义特征图ti输入解码器得到分割掩膜 C表示语义类别总数,视频帧中每个像素对应的类别为所有类别中概率最大的类别。
6.如权利要求5所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(5)具体是:
(5‑1)建立由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型;
(5‑2)将视频帧序列依次输入到语义分割模型得到分割掩膜根据交叉熵损失,通过梯度反向传播方法调整模型参数,迭代优化模型直至收敛;
(5‑3)将新视频的每一帧输入到已训练好的模型中,依据(5‑2)依次输出相应的分割结果 其中,第一个维度表示语义类别。