欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202110425839X
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于语音识别的视频中音频流替换方法,包括如下步骤:步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;

其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;

步骤1.2:根据式(2)计算每一帧的能量值,其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;

步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;

步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为

5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;

步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;

步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;

*

S=arg max P(S|C)        (3)*

其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S表示计算得到的最高的文本段概率;

步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;

Tib=Tb+(Nib‑1)*t       (4)Tie=Tb+Nie*t             (5)其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;

步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;

步骤5.2:将根据演讲者语速进行更改:对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told‑TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;

步骤6:根据修改后的新音频状态确定插入视频方式:步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;

Tadd=(Tnnew‑Told) (9)其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;

步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤

6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。