1.一种确定唇部动作系数模型的方法,包括:获取发音人的音频样本以及所述音频样本所对应的视频样本;
将所述音频样本截断为音频样本片段序列;
基于所述视频样本,确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数;
将所述音频样本片段与所述唇部动作系数相对应,得到训练样本;
采用所述训练样本训练卷积神经网络的初始模型,得到训练完成的唇部动作系数模型。
2.根据权利要求1所述的方法,其中,所述将音频样本截断为音频样本片段序列包括:基于所述视频样本每秒播放的帧数,确定所述音频样本片段序列中的各段音频样本片段的时长。
3.根据权利要求1所述的方法,其中,基于所述视频样本,确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数包括:提取所述视频样本的唇部关键点;
计算各个唇部动作基与对应的唇部动作系数的加权和;
基于所述加权和的以下约束确定所述唇部动作系数:所述加权和在屏幕上的投影与所述唇部关键点的误差最小,且所述加权和中的各唇部动作系数大于等于0小于等于1。
4.根据权利要求3所述的方法,其中,所述提取所述视频样本的唇部关键点包括以下任意一项:采用神经网络模型提取所述视频样本的唇部关键点;
采用主观形状模型提取所述视频样本的唇部关键点;
采用主动外观模型提取所述视频样本的唇部关键点;
采用有约束的局部模型提取所述视频样本的唇部关键点;
采用监督下降模型提取所述视频样本的唇部关键点。
5.一种确定虚拟形象唇部动作的方法,包括:获取目标音频;
将所述目标音频截断为目标音频片段序列;
将所述目标音频片段序列中的各段目标音频片段分别输入如权利要求1-4任意一项所述的唇部动作系数模型,得到时序对应的唇部动作系数序列;
基于所述唇部动作系数序列,驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。
6.根据权利要求5所述的方法,其中,所述基于所述唇部动作系数序列,驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作包括:对所述唇部动作系数序列中相邻的唇部动作系数进行滤波处理,得到滤波后的唇部动作系数序列;
将所述滤波后的唇部动作系数序列输出至前端,驱动目标虚拟人物做出与滤波后的唇部动作系数序列相对应的唇部动作。
7.根据权利要求5所述的方法,其中,所述将所述目标音频截断为音频序列包括以下至少一项:基于训练所述唇部动作系数模型的视频样本每秒播放的帧数,确定所述目标音频片段序列中的各段目标音频片段的时长;以及若将所述目标音频截断为目标音频片段序列时末段音频的时长不足,将末段音频的不足部分补零。
8.一种确定唇部动作系数模型的装置,包括:样本获取单元,被配置成获取发音人的音频样本以及所述音频样本所对应的视频样本;
样本截断单元,被配置成将所述音频样本截断为音频样本片段序列;
系数确定单元,被配置成基于所述视频样本,确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数;
样本确定单元,被配置成将所述音频样本片段与所述唇部动作系数相对应,得到训练样本;
模型训练单元,被配置成采用所述训练样本训练卷积神经网络的初始模型,得到训练完成的唇部动作系数模型。
9.根据权利要求8所述的装置,其中,所述样本截断单元进一步被配置成:基于所述视频样本每秒播放的帧数,确定所述音频样本片段序列中的各段音频样本片段的时长。
10.根据权利要求8所述的装置,其中,所述系数确定单元进一步被配置成:提取所述视频样本的唇部关键点;
计算各个唇部动作基与对应的唇部动作系数的加权和;
基于所述加权和的以下约束确定所述唇部动作系数:所述加权和在屏幕上的投影与所述唇部关键点的误差最小,且所述加权和中的各唇部动作系数大于等于0小于等于1。
11.根据权利要求10所述的装置,其中,所述系数确定单元中所述提取所述视频样本的唇部关键点包括以下任意一项:采用神经网络模型提取所述视频样本的唇部关键点;
采用主观形状模型提取所述视频样本的唇部关键点;
采用主动外观模型提取所述视频样本的唇部关键点;
采用有约束的局部模型提取所述视频样本的唇部关键点;
采用监督下降模型提取所述视频样本的唇部关键点。
12.一种确定虚拟形象唇部动作的装置,包括:音频获取单元,被配置成获取目标音频;
音频截断单元,被配置成将所述目标音频截断为目标音频片段序列;
序列生成单元,被配置成将所述目标音频片段序列中的各段目标音频片段分别输入如权利要求8-11任意一项所述的唇部动作系数模型,得到时序对应的唇部动作系数序列;
动作驱动单元,被配置成基于所述唇部动作系数序列,驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。
13.根据权利要求12所述的装置,其中,所述动作驱动单元进一步被配置成:对所述唇部动作系数序列中相邻的唇部动作系数进行滤波处理,得到滤波后的唇部动作系数序列;
将所述滤波后的唇部动作系数序列输出至前端,驱动目标虚拟人物做出与滤波后的唇部动作系数序列相对应的唇部动作。
14.根据权利要求12所述的装置,其中,所述音频截断单元进一步被配置成以下至少一项:基于训练所述唇部动作系数模型的视频样本每秒播放的帧数,确定所述目标音频片段序列中的各段目标音频片段的时长;以及若将所述目标音频截断为目标音频片段序列时末段音频的时长不足,将末段音频的不足部分补零。
15.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。