欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022108129462
申请人: 湖南师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种音乐舞台表演视频的智能卡通化方法,其特征在于,包括以下步骤:步骤一,获取图像数据,并对图像数据进行预处理;所述图像数据包括真实舞台图像数据集和卡通图像数据集;所述真实舞台图像数据集由音乐舞台表演视频得到;

步骤二,构建语义分割模型,语义分割模型通过对图像数据中的人物、道具、背景进行语义分割;

步骤三,分别针对人物、道具、背景构建并训练不同的音乐舞台表演卡通化视频生成模型;分别得到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型;

步骤四,将待处理的音乐舞台表演视频进行进行预处理,然后通过语义分割模型分割出人物、道具、背景后,分别将人物、道具、背景输入训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型,得到卡通化的音乐舞台表演视频;

步骤五,构建复合图像协调模型对卡通化的音乐舞台表演视频进行图像和谐化处理,获取最终的卡通化的音乐舞台表演视频。

2.根据权利要求1所述的一种音乐舞台表演视频的智能卡通化方法,其特征在于,所述步骤一中,预处理的方法为图像增强、图像归一化。

3.根据权利要求1所述的一种音乐舞台表演视频的智能卡通化方法,其特征在于,所述步骤二中,所述语义分割模型为基于语义分割的DCNN模型;

首先,将一张图片,送进基于语义分割的DCNN模型中,加入空洞卷积提取特征,得到高级语义特征和低级语义特征;空洞卷积过程式如下:其中,y[i]表示在位置i上的空洞卷积输出,x[ ]表示在位置 上的输入,k表示卷积核的长度,w[k]表示长度为k的卷积滤波器,τ表示输入信号的采样步长;

低级语义特征是经过一次空洞率为1的空洞卷积后得到的特征信息, 高级语义特征是经过四次空洞卷积后得到的特征信息,通过把提取到的高级语义特征输入空洞金字塔池化模块,和不同空洞率的空洞卷积层进行卷积,得到四个特征图,其中空洞卷积空洞率分别为

1、6、12、18;再对提取到的高级语义特征进行池化,得到一个特征图;所有分支共得到五个特征图,使五个特征图拼接在一起,得到第一特征图;

把第一特征图放入多层通道注意力模块获取第二特征图;将第二特征图进行双线性插值上采样并与低级语义特征合并,获得合并特征图;解码器部分将合并特征图用 3×3 卷积恢复空间信息和双线性插值上采样精细目标边界,得到分割结果;

由于图像分割任务中具有多个对象,因此用多分类交叉熵损失函数 ,公式如下:其中,pi表示样本属于第i类的概率,yi是样本标签的命中率的表示,当样本属于类别i时,yi=1;当样本不属于第类别i时,yi=0;C表示样本数量;

通过上述过程,把人物和道具从舞台背景中分离出来。

4.根据权利要求1所述的一种音乐舞台表演视频的智能卡通化方法,其特征在于,所述步骤三的具体步骤为:基于生成对抗网络的卡通化模型,分别形成对应人物、道具、背景的人物卡通化视频生成模型、道具卡通化视频生成模型和背景卡通化视频生成模型;

3.1)人物卡通化视频生成模型的总损失函数Lbody如下:其中λ1、λ2、λ3、λ4、λ5、λ6分别为人物表面信息损失含糊Lsurface、人物结构信息损失函数Ltexture、人物纹理信息损失函数Lsurface、人物内容信息损失函数Lcontent、人物总变分损失函数Ltv和l1正则化项L1的权重,通过给予不同的权重来控制生成图像的信息侧重点;

3.11)人物表面信息的损失函数 如下:

用可微引导滤波器进行边缘保持滤波,表示为 ,以一个图像I作为输入,本身作为引导图,返回提取的表面表示 ,删除纹理和细节;引入鉴别器Ds来判断模型输出和参考卡通图像是否具有相似的表面,并引导生成器G学习存储在所提取的表面表示中的信息;其中 G表示生成器,Ds表示表面信息判别器,Ic表示卡通图像,Ip表示真实图像;

3.12)人物结构信息损失函数Lstructure如下:使用预先训练的VGG16网络提取的高级特征,然后在人物卡通化视频生成模型生成出的人物卡通图像和从生成出的人物卡通图像中提取的结构表征之间加强空间约束;

表示对生成出的人物卡通化图像进行结构表征提取,也就是选择性搜索的过程和图片区域填色; 表示用VGG网络在生成的人物卡通化图像中提取的高级特征;

按照区域中位值和平均值进行加权求和来计算区域颜色,公式如下:其中,Si,j表示在位置为(i,j)的区域的像素值,表示当前区域像素值的平均值,表示当前区域像素值的中位值;i表示行,j表示列;σ(S)表示S的标准差;

3.13)人物纹理信息损失函数 如下:

其中,Frcs表示随机色移算法,从彩色图像中提取单通道纹理表征;Dt表示鉴别器;

使用随机色彩转移算法,从彩色图像中提取单通道纹理表征Frcs(Irgb),公式如下:其中,Irgb表示3通道的RGB彩色图像,Ir、Ig和Ib表示三个彩色通道,Y表示由RGB彩色图像转换而来的标准灰度图像;引入鉴别器 来区分从人物卡通化视频生成模型生成出的人物卡通图像输出和从该模型生成出的人物卡通图像中提取的纹理表示,并指导生成器学习纹理表示中存储的清晰轮廓和精细纹理;α表示标准灰度图像的权重,β1、β2、β3分别表示r、g、b三个通道的权值,且取值范围为(−1, 1);

3.14)人物内容信息损失函数 :

表示一个VGG层的特征映射,在初始化后使用输入照片和生成图片之间的VGG特征映射的 稀疏正则化来细化语义内容丢失;

3.15)人物总变分损失函数如下:

其中,H、W、C表示图像的空间维度; 表示 的后向差分, 表示 的后向差分;

3.16)l1正则化项:

其中, 表示人物卡通化视频生成模型生成出的人物卡通图像的一范数;

3.2)道具卡通化视频生成模型的总损失函数Lprop如下:其中,a、b、c、d、e是Ladv、Lcon、Ltex、L1、LIS的权重,Ladv、Lcon、Ltex、L1、LIS分别为边缘促进对抗性损失函数、内容信息损失函数、纹理信息损失函数、l1正则化项和照明平滑损失;

3.21)边缘促进对抗性损失:

对于每个图像的 ∈Sdata(c),应用以下三个步骤:(1)使用标准的Canny边缘检测器检测边缘像素;(2)扩张边缘区域;(3)在扩张的边缘区域应用高斯平滑,从而得到Sdata(e);其中,Sdata(c)表示卡通图像的集合,Sdata(e)表示去除清晰边界的卡通图像的集合,ci表示卡通图像的集合Sdata(c)中的第 张,ej表示去除清晰边界的卡通图像的集合中的第j张,pk表示待卡通化图像集合中的第k张;

因此,边缘促进对抗性损失函数Ladv如下:

表示离散变量 在概率分布Sdata(c)下的熵, 表示离散变量在概率分布Sdata (e)下的熵, 表示离散变量 在概率分布Sdata (p)下的熵,D表示判别器,G表示生成器,G(pk)表示生成器G所生成的图像;

3.22)内容信息损失函数Lcon如下:

VGG表示一个VGG层的特征映射;

3.23)纹理信息损失函数Ltex如下:

3.3)背景卡通化视频生成模型的总损失函数Lbackground如下:其中,e、f、g、h分别为背景卡通化视频生成模型中Ladv、Lcon、Lstr、L1的权重;

分别训练人物卡通化视频生成模型、道具卡通化视频生成模型和背景卡通化视频生成模型,使得人物卡通化视频生成模型的总损失函数、道具卡通化视频生成模型的总损失函数和背景卡通化视频生成模型的总损失函数最小,从而分别得到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型;将语义分割后不同部分的待卡通化视频分别输入到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频,得到人物卡通化视频、道具卡通化视频、背景卡通化视频;再将人物卡通化视频、道具卡通化视频、背景卡通化视频的每一帧复合,得到复合图像 ,从而得到复合卡通化的音乐舞台表演视频。

5.根据权利要求4所述的一种音乐舞台表演视频的智能卡通化方法,其特征在于,γ1=

20,γ2=40。

6.根据权利要求1所述的一种音乐舞台表演视频的智能卡通化方法,其特征在于,所述步骤五的具体步骤为:将复合图像 分解为反射度 和照明固有图像 :

其中,⊙是元素级乘积;

将协调通过图像重构损失函数Lrec嵌入到从复合图像分解到真实图像重构的过程中:表示输出的和谐化后的图像与真实图像空间距离的一范数的熵值,表示输出的和谐化后的图像,

以 ≈ 作为协调反射率的约束,产生反射率谐波损失LRH:其中, 表示和谐化后的图像的反射度梯度, 表示和谐化后的图像的梯度,表示谐化后的图像的反射度与和谐化后的图像梯度差的一范数的熵值;

其中,表示和谐化后的固有图像,表示梯度;

为了协调照明,使前景和背景的照明将兼容,首先学习光线,然后将光线从背景转移到前景,假设照明对应的图像梯度平滑的,则有 ≈0的约束来解耦,提供照明平滑损失;

设置照明协调损失LIH如下:

表示真实图像,表示和谐化后的固有图像, 表示和谐化后的固有图像与真实图像空间距离的二范数的熵值;

构建复合图像 的不和谐损失LIF:

其中,为相似函数, 表示编码器接收复合图像作为输入,产生无不和谐的特征图作为输出,C为 的通道数, 为该通道数下的熵值 表示复合图像 , 表示与大小相同的缩小的灰度真实图像;

得到总损失函数Lharm如下:

通过训练,使得总损失函数Lharm最小,得到最终的和谐化处理模型,将已获取的复合卡通化的音乐舞台表演视频输入最终的和谐化处理模型得到和谐化后的音乐舞台表演视频;

λRH、λIS、λIH和λIF分别为LRH、LIS、LIH和LIF的权重。