1.一种基于场景图推理的视频问答方法,其特征在于,包括:获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;
对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答。
2.根据权利要求1所述的方法,其特征在于:
对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
3.根据权利要求1所述的方法,其特征在于:
通过场景图生成算法对视频数据进行处理的过程包括:构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
4.根据权利要求1所述的方法,其特征在于:
获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
5.根据权利要求1所述的方法,其特征在于:
对所述视频特征及问题特征进行处理的过程包括:
构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,将所述视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息。
6.根据权利要求5所述的方法,其特征在于:
对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息。
7.根据权利要求6所述的方法,其特征在于:
所述核函数 为:
其中 为节点 的坐标, 为节点 的坐标, 为节点 的时间戳, 为节点 的时间戳, 以及 为缩放超参数。
8.根据权利要求1所述的方法,其特征在于:
对所述答案线索信息及特征信息进行解码的过程包括:构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中所述训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。