知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于语音识别的视频中音频流替换方法

面议

专利号： 202110425839X

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2023-08-24

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于语音识别的视频中音频流替换方法，包括如下步骤：步骤1：提取待处理的视频中的音频，并对所提取的音频进行端点检测、降噪，具体为：步骤1.1：首先将音频按照时长与采样率进行分帧，根据式(1)计算每一帧的时长，最后将每一帧乘上汉明窗；

其中，T表示音频帧时长，n表示一个AAC帧对应的采样点个数，v表示采样频率；

步骤1.2：根据式(2)计算每一帧的能量值，其中，En表示第n帧的能量，xni表示第n帧第i个采样点的频率，N表示每帧采样点的总数；

步骤1.3：根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea，若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea，则将该帧的起始时刻作为前端点，反之将该帧的结束时刻作为后端点，一对前后端点间的时间就代表人停顿间说话的时间；

步骤1.4：取音频起始处50帧的语音作为背景音，将所取的50帧的语音以每组10帧分为

5组，对每组的语音帧进行傅里叶变换，求得每组的频谱，并求5组的频谱平均值，得到10帧长度的频谱作为噪声频谱；对整个音频的全部语音进行傅里叶变换求出频谱，使用噪声频谱进行补偿，即两者相减，再使用傅里叶逆变换得到正常的降噪后的音频；

步骤2：对音频进行特征值提取，具体为：对步骤1)降噪后的音频进行MFCC语音特征提取，通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取，得到每一帧音频的特征值C；

步骤3：通过声音模型和语言模型识别音频中的语音，具体为：根据式(3)求出语音对应概率最高的文本段，记录对应于每个字发音的特征值Ci；

S＝arg max P(S|C) (3)*

其中，C表示输入的音频的特征值，S表示输入的语音特征C对应的概率，S表示计算得到的最高的文本段概率；

步骤4：根据特征值得出每个字的起止时间，具体为：根据每个字发音的特征值Ci，与步骤2中得到的每一帧音频的特征值C按序进行对比，按序找到每个Ci所在位置，得到每个字所占的帧的位置，再根据式(4)和(5)计算第i个字的起始时间和结束时间；

Tib＝Tb+(Nib‑1)*t (4)Tie＝Tb+Nie*t (5)其中，Tib表示第i个字的起始时间，Tb表示前端点对应时间，Nib表示第i个字的起始帧为该段语音的第几帧，t表示每一帧对应原音频的长度，Tie表示第i个字的结束时间，Nie表示第i个字的结束帧为该段语音的第几帧；

步骤5：根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速：步骤5.1：根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te，将计算得到的两个指标值作为演讲者语速特征的关键指标并记录：其中，Tib表示第i个字的起始时间，Tie表示第i个字的结束时间；

步骤5.2：将根据演讲者语速进行更改：对于待替换的音频，根据每个字的起止时间截取成Nnew个音频，再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率，具体为：并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频，得到中间音频，再在中间音频的两端分别插入时长为T1b和(Told‑TNe)的两段空白音频，得到修改后的新音频；其中，Told为原音频总长度，TNe表示最后一个字的结束时间；

步骤6：根据修改后的新音频状态确定插入视频方式：步骤6.1：对于修改后的新音频，若其长度Tnnew>Told，则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频，生成新视频；否则，根据式(10)设置该段修改后的新音频播放速率R，生成新音频；

Tadd＝(Tnnew‑Told) (9)其中，Tnnew为修改后的新音频的长度，Tnnew通过解析视频内部的自带信息获取视频时长得到，Told为原音频总长度，Tadd为需要生成的Told时刻的影像冻结视频长度，R为修改后的新音频播放速率；

步骤6.2：将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成，或将步骤

6.1生成的新音频嵌入步骤1中待处理的视频中，得到全新的视频，该视频即为替换后的新视频。