欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021116240560
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多模态深度特征融合的视觉问答方法,其特征在于,包括以下步骤:(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;

(2)利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;

(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果;

所述步骤(1)具体包括:对输入的图像Xin,使用开源的Faster‑RCNN模型进行学习训练,得到图像特征 它是VQA数据集的图像区域视觉特征的集合,dx=2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征dy=512是输入文本特征的维度;

所述步骤(2)具体包括:

SA和MA元注意力单元设计:

基于“多头”注意力(Multi‑head attention)机制,构建了自注意力SA(self‑attention)和交互注意力MA(mutual‑attention)两类元注意力单元,用于协同注意力网络层的模块化组合,“多头”注意力的计算公式如下所示:O

MultiHead(Q,K,V)==Concat(head1,…,headh)W其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的Q K Vh份数据分别通过不同的权重Wi ,Wi,Wi映射得到新的Q、K、V以计算相应的Attention值,计算公式为:将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;

其中z是归一化因子,K、V是注意力宏观理解下的Key‑Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;

在“多头”注意力机制基础上建立SA元注意力单元,该单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self‑attention,学习特征集X内成对样本<xh,xi>之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;

同理建立MA元注意力单元,MA元注意力单元与SA不同的地方在于,输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本<xi,yj>之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;

协同注意力网络层构建,将两种元注意力单元进行模块化组合,得到新的协同注意力网络层,共包含两个SA元注意力单元和两个MA元注意力单元,其实现分三个步骤:模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;

实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;

单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co‑Attention Layer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征num‑1 num‑1和问题特征分别表示为X ,Y ,作为下一个串联CAL层的输入,公式表达如下所示:num num num‑1 num‑1

(X ,Y )=CALnum(X ,Y )

0 0

对于CAL1,其输入图像特征和文本特征分别为X=X及Y=Y,深度串联注意力学习网络的输出为 和

2.如权利要求1所述的一种基于多模态深度特征融合的视觉问答方法,其特征在于,所述步骤(3)具体包括:特征融合与分类预测输出,对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征 和文本特征 各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:*

其中e为自然常数,利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y,公式如下所示:

*

然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x和问题特*征y使用融合函数进行融合,计算公式如下所示:

其中 是两个线性投影矩阵,由融合前设置的全连接层的参数设定,

dres是融合特征res的共同维度,实验设置为1024,LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e‑7;

模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N‑分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。

3.一种基于多模态深度特征融合的视觉问答模型,其特征在于,包括:

图像特征抽取模块,用于使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征;

与图像特征抽取模块相连的协同注意力网络层,用于利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模,构建注意力网络并将注意力层串联堆叠,其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互;

与协同注意力网络层相连的特征融合与分类预测输出模块,用于通过多模态融合函数融合注意力加权后的图像信息和文本语义,并将融合特征传入分类器结合答案文本数据预测结果;

所述图像特征抽取模块具体用于:对输入的图像Xin,使用开源的Faster‑RCNN模型进行学习训练,得到图像特征 它是VQA数据集的图像区域视觉特征的集合,dx=

2048是输入图像特征的维度;对输入的问题文本Yin,首先进行文本预处理划分单词,使用开源的GloVe模型实现基于单词级的输入embedding,然后输入到LSTM网络,抽取出问题文本特征 dy=512是输入文本特征的维度;

协同注意力网络层通过SA元注意力单元和两个MA元注意力单元通过模块化组合构成;

其中,SA元注意力单元和两个MA元注意力单元均基于“多头”注意力机制构建,“多头”注意力的计算公式如下所示:O

MultiHead(Q,K,V)==Concat(head1,…,headh)W其原理是在点积注意力的基础上,将各输入向量按“头”的个数等分为h份,对等分后的Q Kh份数据分别通过不同的权重Wi ,Wi , 映射得到新的Q、K、V以计算相应的Attention值,计算公式为:将分割计算的结果重新链接,映射到原始的向量维度,得到注意力特征结果;

其中z是归一化因子,K、V是注意力宏观理解下的Key‑Value对;神经网络输入的第二种模态特征数据Q作为主体接受K、V指导,通过计算与K内积后Softmax的结果,得到相似度概率,最后加权求和得到注意力向量;

SA元注意力单元仅使用一种模态X输入后作为Attention计算公式的Q、K、V,单元通过“多头”注意力层获取self‑attention,学习特征集X内成对样本之间的关系,对所有成对实例相似度的加权求和得到注意力处理后的特征,特征信息随后进入使用RELU激活函数的全连接层和一个用于归一化的全连接层,实现特征的空间变换,最终输出得到Attention(SA),它是所有xi分别与输入的模态X所有特征之间的相似度重构集合;

MA元注意力单元输入使用了X和Y两种模态的特征值,模态Y的特征数据用于指导模态X的特征注意力学习,其中模态Y作为Attention计算公式的K和V,模态X作为主体Q,MA单元学习特征集X单一元素和特征集Y所有元素的成对样本之间的关系,利用Y指导X学习,最终输出Attention(MA),即输入模态xi与输入的模态Y所有样本特征交叉后的相似度重构集合;

其中SA元注意力单元和两个MA元注意力单元通过模块化组合步骤包括:模型模拟人类“先看图像,然后带着图像信息浏览问题”的自然行为:使用MA(Text)单元,经自注意力处理后的图像特征作为“指导”提供MA单元所需的K、V向量,自注意力处理后的文本特征作为MA单元所需的Q向量,实现协同注意力建模,完成协同注意力网络层的第一次跨模态特征交互;

实现协同注意力层内的第二次跨模态特征交互:使用MA(Image)单元利用文本特征帮助获取图像关键区域特征信息,此时由第二步协同注意处理后的文本特征提供K、V向量,自注意力处理后的图像特征作为协同注意力单元主体;

单个协同注意力网络层输出的结果可以作为新的协同注意力层的输入,将多个注意力层可以串联堆叠,得到最终的深度串联注意力学习网络,协同注意力层(Co‑Attention Layer)简写为CAL,设模型共有Num层,记作CALNum,第num层可表示为CALnum,其输入图像特征num‑1 num‑1和问题特征分别表示为X ,Y ,作为下一个串联CAL层的输入,公式表达如下所示:num num num‑1 num‑1

(X ,Y )=CALnum(X ,Y )

0 0

对于CAL1,其输入图像特征和文本特征分别为X=X及Y=Y,深度串联注意力学习网络的输出为 和

4.如权利要求3所述的一种基于多模态深度特征融合的视觉问答模型,其特征在于,特征融合与分类预测输出模块具体用于对图像特征X和问题特征Y进行协同注意力学习后,输出的图像特征 和文本特征 各自携带有丰富的图像区域和问题单词的注意力权重信息,使用MLP学习,得到归一化的权重概率,公式如下所示:*

其中e为自然常数,利用上述归一化的权重概率对特征加权求和得到最终的图像特征x*和问题特征y,公式如下所示:

*

然后基于双线性池化(Bilinear Pooling)的思想,将计算得到的图像特征x和问题特*征y使用融合函数进行融合,计算公式如下所示:

其中 是两个线性投影矩阵,由融合前设置的全连接层的参数设定,

dres是融合特征res的共同维度,实验设置为1024,LayerNorm层在输入序列张量的最后一个维度上求均值和方差,然后对融合特征标准化,计算公式如下:E[x]和Var[x]分别为处理数据的期望方差,∈为常量取1e‑7;

模态特征融合后得到由包含图像与问题文本相关信息的融合特征res,随后模型接入N‑分类器(Classifier),建立输入融合特征res和输出预测答案result之间的映射关系,其中N是训练集使用的答案(Answer)标签中出现频率较高的标签数量,由深度学习开源库OpenVQA平台提供;损失函数使用交叉熵损失函数,公式如下所示:N即标签数量,yv是对样本预测的结果标记,pv代表了预测分类结果为第v类的概率。