欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202010043890X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,包括以下步骤:步骤(1)、选择内容图片和风格图片并进行图片预处理;

步骤(2)、将预处理后的内容图片和风格图片分别输入至ResNet-50网络中,并且在最后一层池化层输出之后将内容图片和风格图片输出结果 和 进行加权相加,公式为将 输入到ResNet-50进行上采样,得到跟输入的图片大小相同的图片步骤(3)、将风格图片输入至VGG-19网络中,获得风格约束;

步骤(4)、将内容图片输入至VGG-19网络中,获得内容约束;

步骤(5)、为了将风格图片 的风格迁移到内容图片 上,采用步骤(2)得到的输出图片作为待合成的图像,该图像同时匹配 的内容表示和 的风格表示,将其输入VGG-19网络中,使用损失函数计算步骤(3)得到的风格约束 与步骤(2)得到的输出图片 的损失和步骤(4)得到的内容约束 与步骤(2)得到的输出图片 的损失再将两者乘以系数之后相加;使用梯度下降算法来对该损失函数进行优化;

总体的风格迁移通过共同最小化 三者之间的欧式距离来进行;总的损失函数如下:其中α和β分别是内容和风格重建的权重因子;

步骤(6)、重复步骤(5)进行10次迭代计算,使得步骤(2)得到的输出图片 经过迭代之后的输出 在内容上尽可能相似于内容图片而在风格上相似于风格图片;

步骤(7)、最后将分割的到的主体放回经过风格迁移的背景上。

2.根据权利要求1所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(1)具体方法如下:选取一张主体明确的图片作为内容图片,采用U-Net网络对内容图片进行语义分割,其中U-Net的骨干网络选择为ResNet-18;将网络的输出类别数设置为2,定义分类所需要的softmax函数:式中,ak(x)表示每个像素点对应特征通道的得分,K为类的数量,pk(x)是对类k的对像素点分类的结果,softmax函数用于在神经网络计算完成之后对计算结果进行分类输出,在通过softmax之前,数据的表现为一个一维的激活数据体,经过softmax之后输出的结果将会映射到相应的类别上,并形成主体和背景的不同标记;分割出主体后使用全图减去主体,得到一张去除主体而仅留下背景的内容图片;

选取需要获得其背景风格的风格图片,为了使得效果比较好,一般选取风格明显且强烈的图片作为风格图片;

最后将内容图片和风格图片裁切为相同尺寸,获得预处理后的内图片和风格图片。

3.根据权利要求2所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(3)具体方法如下:将风格图片输入至VGG-19网络中,并且将风格图片标记为 为了获得输入图像风格的表示,采用用于捕获纹理信息的特征空间;所述的特征空间可以建立在网络的任何层的滤波器响应之上,由不同滤波器响应之间的特征相关性组成,其中期望值占据了特征映射的空间范围;所述的特征相关性由Gram矩阵 给出,其中 是第l层中向量化特征图i和j之间的内积;

通过内积操作,可以得到输入图像的风格表示;通过构造与给定输入图像的风格表示相匹配的图像,来可视化这些构建在网络不同层上的风格特征空间捕获的信息;通过对进行梯度下降可以实现风格迁移,其中损失函数定义为风格图片的Gram矩阵项和要生成的图像的Gram矩阵项之间的均方距离;

l l

A和G分别 是和 在层l中各自的特征表示;第l层卷积层对总损耗的贡献为:总的损失可以表示为

式中,wl是各层对总损失贡献的权值;关于层l中的活动,El的导数可以通过分析计算得出:El相对于 中的每个像素的值的梯度可以容易地使用标准误差反向传播来计算,分别取VGG-19网络的第一层,第三层,第五层,第九层,第十三层的输出作为风格约束。

4.根据权利要求3所述的一种基于语义分割和深度学习的图片背景风格迁移方法,其特征在于,步骤(4)具体方法如下:将内容图片输入至VGG-19网络中,并且将内容图片标记为 为了将在不同卷积层编码的图像信息进行可视化,对步骤(2)输出的图像 进行梯度下降操作,以找到与原始图像的特征响应相匹配的另一图像;Pl表示 在层l中的特征表示,Fl表示 在第l层中所有卷积核经过激活后的特征表示,然后定义两个特征表示之间的平方误差损失这个损失相对于层l中激活数据体的导数等于

从中可以使用标准误差反向传播计算相对于图像 的梯度;因此,可以通过改变初始随机图像,直到它在卷积神经网络的某一层中产生与原始图像 相同的响应,所述的初始随机图像并不是完全随机的噪点图,而是步骤(2)的输出结果 取VGG-19网络的第十层的输出作为内容约束。