1.一种基于2D图像的虚拟试衣方法,其特征在于,包括如下步骤:
步骤(1),输入试穿者的2D图像、人体语义分割图和服装图像,经过预处理操作将人体语义分割图分为试穿区域和非试穿区域两部分,对服装图像进行掩模和修正处理,生成服装掩模图和服装修正图;
步骤(2),输入服装语义图和非试穿区域语义图,经过端到端的语义拼接网络,在引入集成判别器和多层次损失函数的约束下,生成试穿后的人体语义分割图;
步骤(3),根据试穿后的语义分割图、人体姿态图和服装图像,通过服装变形网络,在引入频域分类器和正则约束损失函数的约束下,预测出变形后的服装图像;
步骤(3)中服装变形网络是端到端的网络,输入是试穿后的语义分割图、服装图像和人体姿态图,在人体姿态图中若干个关键点位置的约束下,经过两条支路通过深度卷积网络分别提取试穿后的语义分割图和服装图像的关键点位置的像素信息,引入频域分类器,使用插值法预测变形后服装图像的像素信息,引入正则约束损失函数控制服装的变形程度,最后输出变形后的服装图像;
正则约束损失函数表示为:
上式中, 分别表示变形前后坐标点的x值,
分别表示变形前后坐标点的y值,
表示x轴方向上坐标的变化量的平方,
表示y方向上坐标的变化量,α,β为两个可学习的参数,用于
控制服装在x轴和y轴方向的变形程度;
服装变形网络的损失函数表示为:
上式中, 是条件对抗损失函数, 是像素交叉熵损失函数, 是正
则约束损失函数,λ1,λ2,λ3是系数,用于调节三个损失函数对总损失函数的影响;
步骤(3)中频域分类器指在频域空间,通过设置阈值来对特征进行划分,一方面更多地把关注点放在生成低频特征信息上,增强图像的内容信息,另一方面借助试穿后的语义分割图区别开噪点和高频信息,提取更多有用的高频信息,使用插值法增强图像高频区域的纹理精细度,从而提高生成图片的质量;频域分类器的具体流程包括:首先,由卷积层提取服装图像的空间域特征图,使用离散傅里叶变换得到频域特征图,可表示为:其中,Si,j表示空间域特征图中第i行第j列的空间特征分量,Fi,j表示频域特征图中第i行第j列的频率特征分量,DFT()是离散傅里叶变换函数;
然后,通过神经网络结构学习得到频域特征图中每个频率特征分量的重要性权值,将权值大于阈值的频率特征分量标识为低频信息特征分量,小于阈值的频率特征分量标识为高频信息特征分量,可表示为:其中, 表示第i行第j列类别为z的频率特征分量,当z=0时表示该频率特征
分量为低频信息特征分量,当z=1时表示该频率特征分量为高频信息特征分量,ki,j表示第i行第j列频率特征分量的重要性权值,λ是阈值;
最后,通过试穿后的语义分割图中的位置信息进一步在高频信息特征通道中筛选出噪声信息,使用低通滤波器来过滤掉图像噪声,使用插值法填充图像内容和纹理信息;
步骤(4),根据试穿者图像,对非试穿区域语义图进行着色得到非试穿区域彩色图,再与变形后的服装图像进行拼接得到粗糙的试穿结果图;
步骤(5),将粗糙的试穿结果图和试穿后的语义分割图输入到归一化网络中,计算并缩小伪影区域,最终得到精细的试穿结果图。
2.如权利要求1所述的一种基于2D图像的虚拟试衣方法,其特征在于:步骤(1)中输入试穿者的2D图像、人体语义分割图和服装图像后,预处理过程包括两部分:一部分,输入人体语义分割图,包含7种语义信息依次为:头发、面部、脖子、手部、下装、衣服和手臂的语义信息,并且各语义信息使用不同像素值进行标注,可表示为:Y={ a 1, a 2, a 3,…, a 7},在预处理过程中根据各语义信息像素值的不同,将人体语义分割图划分为非试穿区域语义图:Y1={a1, a 2, a 3, a 4, a 5}和试穿区域语义图:Y2={a6,a7},其中,非试穿区域语义图包括:头发、面部、脖子、手部、下装的语义信息,试穿区域语义图包括:衣服和手臂的语义信息;
另一部分,输入服装图像,对服装图像进行掩膜处理,即将服装图像中的服装区域的像素值设置为0,背景的像素值设置为255,得到服装掩模图,根据试穿区域语义图中像素点的位置信息对服装图像进行仿射变换,使得服装图像的轮廓与试穿区域语义图的轮廓一致,从而得到服装修正图,为后面的服装变形做准备。
3.如权利要求1所述的一种基于2D图像的虚拟试衣方法,其特征在于:步骤(2)中语义拼接网络是端到端的网络,输入是服装语义图和非试穿区域语义图,先经过卷积层提取图像特征并进行下采样,再经过反卷积层将压缩后的图像上采样成原本的尺寸,得到粗糙的试穿后的人体语义分割图,最后将粗糙的试穿后的人体语义分割图输入到集成判别器进行相似度计算,经过多轮语义拼接后输出相似度最高的试穿后的人体语义分割图;集成判别器是由n个相同网络结构的深度卷积网络拼接而成,n的大小与输入图片的分辨率有关,深度卷积网络由池化层、卷积层、归一化层和激活层依次连接构成;集成判别器的输入是真实图片和预测图片,输出是两个图片的特征相似度,n个深度卷积网络分别在n个不同尺度上区分真实图像和预测图像,并且通过设置系数来控制每个深度卷积网络的预测结果对最终结果的影响,从而鼓励语义拼接网络生成更多的细节;每个深度卷积网络对应一个特征匹配损失函数,合起来构成集成判别器的多层次损失函数,对预测结果进行细粒度优化,鼓励语义拼接网络生成更精细的细节;
多层次损失函数表示为:
上式中, 表示深度卷积网络D1对语义拼接网络生成的G(1)图像的
特征匹配损失函数, 是系数,控制不同尺度的深度卷积网络损
失对多层次损失函数的影响,即 。
4.如权利要求1所述的一种基于2D图像的虚拟试衣方法,其特征在于:步骤(5)中去除伪影的处理过程包括:首先,通过深度卷积网络提取粗糙的试穿结果图的图像特征,经过上采样得到粗糙试穿结果图的语义分割图,与试穿后的语义分割图求差值,该过程可以表示为:Artifact=R‑S
其中,Artifact表示伪影区域的像素信息,R表示粗糙的试穿结果图,S表示试穿后的语义分割图;
得到一张只有小部分像素值大于0的图像,其中像素值大于0的像素点即为伪影区域的像素点,并根据伪影区域的位置信息将该区域在粗糙的试穿结果图中标识出来;然后,经过归一化网络,学习到两个型变系数α和β,分别控制伪影区域在x轴和y轴方向的缩小程度,用于缩小伪影区域的大小;最后,经过上采样层,将调整后的特征图片上采样成原图大小,并使用插值法对损失的像素点值进行填充,生成更加精细的试穿结果图。
5.如权利要求1所述的一种基于2D图像的虚拟试衣方法,其特征在于:步骤(5)中归一化网络的输入是粗糙的试穿结果图,输出是精细的试穿结果图,归一化网络包括获取伪影语义图和消除伪影信息两个阶段:第一个获取伪影语义图阶段,包含两个子网络,设为网络1‑1、1‑2,其中网络1‑1中包含n层卷积层,通过卷积层提取图像特征,以及n层反卷积层,通过反卷积将图像映射为原尺寸大小,卷积层的输出作为反卷积层的输入,卷积层与反卷积层之间通过残差结构连接,在最后一层反卷积后输出结果;其中网络1‑2包含图像求差模块,输入两种相同尺寸的图像,输出两种图像求差后的结果图;其中n的取值与输入图片的尺寸有关;
第二个消除伪影信息阶段,包含一个网络2‑1,其中网络2‑1由两条并联支路构成,其中,第一条支路由一个卷积层,一个激活层、一个区域正则化层、一个下采样,一个上采样层、和一个相加层依次串联而成,第二条支路由单一的区域正则化层构成,在相加层后输出最后的结果;
其中,所述区域正则化层,其作用是对伪影区域进行标准化,首先获得伪影区域的空间位置,然后通过卷积网络计算型变系数α和β,引入平面变形损失函数来控制伪影区域的缩减程度,防止因过度缩减导致错误修改人体部位的像素点信息,以此来辅助缩小伪影区域;
所述相加层,其作用是对两条支路的输出结果进行融合;
其中,平面变形损失函数表示为:
上式中, 分别表示伪影区域特征点的x,y坐标,
表示两个节点之间的欧氏距离,i,j是形变量,α,β是型
变系数。