1.一种语义对齐的视频问答方法,其特征在于,包括以下步骤:通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案;
获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
2.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,通过语义分析工具进行问题语义解析的方法包括:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
3.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对问题进行编码的方法包括:将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
4.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得问题解析语义特征的方法包括:根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
5.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
6.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对齐解析语义的语言特征和对应的视觉特征的方法包括:使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
7.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。