1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
2.如权利要求1所述基于时序校正卷积的视频预测方法,其特征在于,步骤(1)具体是:(1‑1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列其中, 表示实数域,Xt表示第t帧,t=1,2,…,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1‑2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为
2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列C表示通道维度,当不足3帧时,该序列的元素均由全0
初始化补全;将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合,得到强化外观特征图 X′t=2σ(Conv1(Ht‑3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t‑1个时空编码特征图Ht‑1和强化外观特征图Xt′经过卷积和逐元素相乘操作融合,得到强化时空编码特征图 H′t‑1=2σ(Conv2(X′t))⊙Ht‑1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1‑4)将强化外观特征图X′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合,得到融合外观特征图 X″t=2σ(Conv1(Ht‑2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t‑1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图 H″t‑1=2σ(Conv2(X″t))⊙H′t‑1。
3.如权利要求2所述基于时序校正卷积的视频预测方法,其特征在于,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列 和长期历史视频帧序列 生成卷积校正张量,具体是:(2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列 当不足
5帧时,长短期视频帧序列元素由全0初始化补全;
(2‑2)将短期历史视频帧序列 在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征 Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×
1×1的三维卷积层;
(2‑3)将长期历史视频帧序列 在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量 其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
4.如权利要求3所述基于时序校正卷积的视频预测方法,其特征在于,步骤(3)具体是:(3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
(3‑2)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt输入自适应卷积时空编码器,获得卷积长短时记忆模块的第t个输入门It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t‑1);其中, 和为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
(3‑3)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个遗忘门 和第t个输入调制门Ft=σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t‑1);其中, 和为二维卷积对应的卷积核;
Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1);其中,tanh(·)为双曲正切函数, 和 为二维卷积对应的卷积核;
(3‑4)计算得到时空记忆状态 Mt=It⊙Gt+Ft⊙Mt‑1;当t=1时,M0由全0初始化得到;
(3‑5)将融合外观特征图X″t、融合时空编码特征图H″t‑1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个输出门Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1);其中, 和为二维卷积对应的卷积核;
(3‑6)获得预测时空编码特征图 Ht=Ot⊙tanh(Mt)。
5.如权利要求4所述基于时序校正卷积的视频预测方法,其特征在于,步骤(4)具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t‑1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
6.如权利要求5所述基于时序校正卷积的视频预测方法,其特征在于,步骤(5)具体是:(5‑1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5‑2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧数量,获得预测视频帧 再将 依次输入视频预测模型,t″=M,…,(N‑1),得到预测视频帧
(5‑3)将均方损失作为视频帧 和预测视频帧 之间的损失函数,均方误差损失 t″′为取值范围为2≤t″′≤N的视频帧时刻;
(5‑4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5‑5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5‑
2)依次输出指定数量的预测视频帧序列作为最终结果。