1.一种基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,包括:提取语义文本的句嵌入特征向量和词嵌入特征矩阵,均输入至堆叠细粒度图像生成网络中,生成细粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
2.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,在生成细粒度图像的过程中,将句嵌入特征向量和词嵌入特征矩阵输入到第一个图像特征转换网络中,得到初始粗粒度图像。
3.如权利要求2所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,在得到初始的粗粒度图像之后,还包括:提取当前粒度图像的图像特征向量,计算出当前粒度图像各子区域的文本相关度特征向量;
将当前粒度图像的图像特征向量和相应的文本相关度特征矩阵输入到下一个图像特征转换网络中,生成较细粒度的图像。
4.如权利要求3所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,利用注意力机制提出的词级注意力模型生成每个图像子区域的文本相关度特征向量。
5.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,基于图像特征向量和相应的文本相关度特征矩阵依次访问每个图像特征转换网络,得到最终的细粒度图像。
6.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,所述堆叠细粒度图像生成网络还包括语义文本再生成模块,其用于根据生成的图像来编码出与该图像语义匹配的文本描述,进而形成语义再生成对齐约束。
7.如权利要求1所述的基于语义约束的堆叠文本生成细粒度图像方法,其特征在于,深度多模态注意约束用于将图像编码器生成的图像特征向量映射到词嵌入语义空间,根据每个单词来衡量自然语言描述与生成图像的相似度,并计算细粒度损失;
或文本语义嵌入约束用于计算两种对抗损失:视觉真实性对抗损失和图像语义一致性对抗损失。
8.一种基于语义约束的堆叠文本生成细粒度图像系统,其特征在于,包括:文本特征提取模块,其用于提取语义文本的句嵌入特征向量和词嵌入特征矩阵;
细粒度图像生成模块,其用于将提取语义文本的相应特征均输入至堆叠细粒度图像生成网络中,生成细粒度图像;
所述堆叠细粒度图像生成网络是一个连续叠加的多阶段图像特征转换网络,且通过深度多模态注意约束、语义再生成对齐约束和文本语义嵌入约束来增强生成的细粒度图像的视觉真实性和语义一致性。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于语义约束的堆叠文本生成细粒度图像方法中的步骤。