1.处理多种先验知识的自适应视频目标分割方法,其特征在于,该方法获取含有目标掩膜及描述语句的视频数据集合后,依次进行如下操作:步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合;具体是:(1‑1)对输入视频进行均匀采样,获得视频帧序列 t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真H×W实目标掩膜{Pt∈{0,1} |t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1‑2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1‑3)将N个连续视频帧{It,It+1,...,It+N‑1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合 c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
(1‑4)将视觉特征图F1/16输入自注意力模块,获得时空视觉特征图 具体是:
Q=LN(F1/16)Wq,K=LN(F1/16)Wk,V=LN(F1/16)Wv,其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为Nh3w3×C,中间特征矩阵 的维度为Nh3w3×C,Nh3w3=N×h3×w3;
(1‑5)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉特征图集合步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵;具体是:(2‑1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于H×W注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1} 输入由多个卷积层组成的掩膜编码器,获得掩膜特征图 具体是:其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次, 表示初始掩膜特征图, 表示中间掩膜特征图;
(2‑2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量 其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度;
(2‑3)将语言特征向量 输入由两个线性层组成的语言嵌入层,并通过复制操作获得语言特征图 具体是:其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
(2‑4)将掩膜特征图M3和语言特征图 输入目标先验控制层,按照获得目标先验特征图 参数0≤α≤0.5;
(2‑5)将目标先验特征图 输入第一个目标卷积核生成器,获得初级目标卷积核矩阵 具体是:Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v,其中,初级目标先验查询矩阵 为全零初始化的可学习参数,b=50,W′q、W′k和W′v均为可学习参数,其维度均为C×C;
(2‑6)将初级目标先验查询矩阵 与初级目标卷积核 进行逐元素累加,作为中级目标先验查询矩阵 中级目标先验查询矩阵 与目标先验特征图 一起输入第二个相同结构的目标卷积核生成器,获得中级目标卷积核矩阵(2‑7)将中级目标先验查询矩阵 与初级目标卷积核 进行逐元素累加,作为高级目标先验查询矩阵 高级目标先验查询矩阵 与目标先验特征图 一起输入第三个相同结构的目标卷积核生成器,获得高级目标卷积核矩阵步骤(3)构建级联目标过滤器,将目标卷积核矩阵与时空视觉特征图集合作为输入,获得目标概率张量;
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络;
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。
2.如权利要求1所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(3)具体是:(3‑1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3‑2)将时空视觉特征图集合中 和 以及初级目标卷积核矩阵 输入第一个目标过滤器,获得初级目标过滤特征图 具体是:其中,θ1(·)与 均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3‑3)将初级目标过滤特征图 通过双线性上采样放大特征图分辨率至h2×w2,即 与时空视觉特征图集合中 以及中级
目标卷积核矩阵 输入第二个目标过滤器,获得中级目标过滤特征图具体是: 其中,θ2(·)与 均表示卷积核大小
为3×3的卷积层;
(3‑4)将中级目标过滤特征图 通过双线性上采样放大特征图分辨率至h1×w1,即 与时空视觉特征图集合中 以及高级
目标卷积核矩阵 输入第三个目标过滤器,获得高级目标过滤特征图具体是: 其中,θ3(·)与 均表示卷积核大小
为3×3的卷积层;
(3‑5)将高级目标过滤特征图 输入掩膜预测层,获得目标概率张量其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
3.如权利要求2所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(4)具体是:H×W
(4‑1)将目标概率张量 和真实目标掩膜{Pt∈{0,1} |t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值 其中, 表示
输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4‑2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
4.如权利要求3所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(5)的具体是:(5‑1)对输入的新视频进行均匀采样,得到视频帧集合 T表示视频的总帧数, 表示在t时刻的视频帧;
(5‑2)将视频帧 按照步骤(1)方法获得时空视觉特征图集合;
(5‑3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2‑1),步骤(2‑4)~(2‑7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2‑2)~(2‑7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜