知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种视觉问答的方法、装置及介质

￥22400

专利号： 2021113441750

申请人：湖南师范大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-08-12

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种视觉问答方法，其特征在于，包括：获取视觉问答任务对应的目标文字和目标图像，并将所述目标文字与所述目标图像分别转换为文字数据和图像数据；

将所述文字数据和所述图像数据前分别加入CLS Token标志，以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测；

将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征；

将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征；

将所述融合特征输入至分类器得到所述视觉问答任务的答案。

2.根据权利要求1所述的视觉问答方法，其特征在于，将所述文字数据输入至基于Transformer的模型中以提取所述文字数据的文字特征，包括：将所述文字数据输入至BERT模型中以提取所述文字数据的所述文字特征，其中所述BERT模型基于所述Transformer的模型得到。

3.根据权利要求1所述的视觉问答方法，其特征在于，将所述图像数据输入至基于Transformer的模型中以提取所述图像数据的图像特征，包括：将所述图像数据输入至ViT模型中以提取所述图像数据的所述图像特征，其中所述ViT模型基于所述Transformer的模型得到。

4.根据权利要求1所述的视觉问答方法，其特征在于，在所述将所述文字特征和所述图像特征拼接之后，在所述输入至所述Transformer的模型得到融合特征之前，还包括：为所述文字特征和所述图像特征提供位置嵌入，以便于识别所述文字特征和所述图像特征拼接后的顺序关系。

5.根据权利要求1或4所述的视觉问答方法，其特征在于，在所述将所述文字特征和所述图像特征拼接之后，在所述输入至所述Transformer的模型得到融合特征之前，还包括：为所述文字特征和所述图像特征提供模态嵌入，以便于区分特征来自所述文字特征还是所述图像特征。

6.据权利要求1所述的视觉问答方法，其特征在于，所述将所述融合特征输入至分类器得到所述视觉问答任务的答案，包括：将所述融合特征输入至基于Sigmoid算法的分类器得到所述视觉问答任务的所述答案。

7.一种视觉问答装置，其特征在于，包括：获取模块，用于获取视觉问答任务对应的目标文字和目标图像，并将所述目标文字与所述目标图像分别转换为文字数据和图像数据；

标记模块，用于将所述文字数据和所述图像数据前分别加入CLS Token标志，以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测；

提取模块，用于将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征；

融合模块，用于将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征；

分类模块，用于将所述融合特征输入至分类器得到所述视觉问答任务的答案。

8.一种视觉问答装置，其特征在于，包括：存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任意一项所述的视觉问答方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述的视觉问答方法的步骤。

推荐专利

一种基于分工决策的视觉问答模型的视觉问答方法及系统

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们