欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018106063549
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语音端点检测方法,其特征在于,包括:

对待检测语音进行分帧处理,得到多个待检测的音帧;

获取各所述待检测音帧的声学特征,并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型;其中,所述VAD模型用于将所述待检测语音中的前N个语音帧分类为噪声帧、将第N+1个语音帧至最后一个语音帧分类为语音帧以及将所述最后一个语音帧之后的M个噪声帧分类为语音帧,所述N和M为整数;

根据所述VAD模型输出的分类结果确定语音段的起点和终点;其中,所述起点对应首个被分类为语音帧的音帧,所述终点对应最后一个被分类为语音帧的音帧。

2.根据权利要求1所述的方法,其特征在于,所述根据所述VAD模型输出的分类结果确定语音段的起点和终点,包括:根据所述VAD模型输出的首个大于第一阈值的第一分类值对应的音帧,确定首个语音帧,并根据所述首个语音帧确定所述语音段的起点;

在确定所述首个语音帧之后,根据所述VAD模型输出的首个小于第二阈值的第二分类值对应的音帧,确定最后一个语音帧,并根据所述最后一个语音帧,确定所述语音段的终点,所述第一阈值大于所述第二阈值。

3.根据权利要求2所述的方法,其特征在于,所述根据所述VAD模型输出的首个大于第一阈值的第一分类值对应的音帧,确定首个语音帧之后,还包括:从缓存中获取所述首个语音帧之前的P帧音帧;所述P为正整数,且所述P大于所述N;

将所述P帧音帧和被确定为语音帧的音帧发送给语音识别器。

4.根据权利要求1所述的方法,其特征在于,所述将各所述音帧的声学特征依次输入至语音活动性检测VAD模型之前,还包括:对待训练语音进行分帧处理,得到多个待训练的音帧;

获取各所述待训练的音帧的声学特征以及各所述待训练的音帧的声学特征对应的标签;所述标签用于指示待训练的音帧的分类结果,所述待训练语音中的前N个语音帧被分类为噪声帧、第N+1个语音帧至最后一个语音帧被分类为语音帧、所述最后一个语音帧之后的M个噪声帧被分类为语音帧;

根据所述待训练的音帧的声学特征以及各所述待训练的音帧对应的标签,对待训练的VAD模型进行训练,得到训练后的VAD模型。

5.根据权利要求4所述的方法,其特征在于,所述获取各所述待训练的音帧对应的标签,包括:对各所述待训练的音帧的声学特征依次进行标注处理,得到各所述待训练的音帧的声学特征对应的候选标签;

对前N个用于指示语音帧的候选标签进行修改,得到修改后的第一标签,所述第一标签用于指示前N个语音帧被分类为噪音帧;

对最后一个语音帧之后的M个用于指示噪声帧的候选标签进行修改,得到修改后的第二标签,所述第二标签用于指示所述M个噪声帧被分类为语音帧;

根据剩余的候选标签、所述第一标签和所述第二标签,得到各所述待训练的音帧的声学特征对应的标签。

6.根据权利要求1至5任一项所述的方法,其特征在于,所述VAD模型为深度神经网络模型。

7.根据权利要求1至5任一项所述的方法,其特征在于,所述N大于等于M。

8.一种语音端点检测设备,其特征在于,包括:

分帧模块,用于对待检测语音进行分帧处理,得到多个待检测的音帧;

检测模块,用于获取各所述待检测音帧的声学特征,并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型;其中,所述VAD模型用于将所述待检测语音中的前N个语音帧分类为噪声帧、将第N+1个语音帧至最后一个语音帧分类为语音帧以及将所述最后一个语音帧之后的M个噪声帧分类为语音帧,所述N和M为整数;

确定模块,用于根据所述VAD模型输出的分类结果确定语音段的起点和终点;其中,所述起点对应首个被分类为语音帧的音帧,所述终点对应最后一个被分类为语音帧的音帧。

9.根据权利要求8所述的设备,其特征在于,所述确定模块具体用于:根据所述VAD模型输出的首个大于第一阈值的第一分类值对应的音帧,确定首个语音帧,并根据所述首个语音帧确定所述语音段的起点;

在确定所述首个语音帧之后,根据所述VAD模型输出的首个小于第二阈值的第二分类值对应的音帧,确定最后一个语音帧,并根据所述最后一个语音帧,确定所述语音段的终点,所述第一阈值大于所述第二阈值。

10.根据权利要求9所述的设备,其特征在于,还包括,通信模块,用于在根据所述VAD模型输出的首个大于第一阈值的第一分类值对应的音帧,确定首个语音帧之后,从缓存中获取所述首个语音帧之前的P帧音帧;所述P为正整数,且所述P大于所述N;

将所述P帧音帧和被确定为语音帧的音帧发送给语音识别器。

11.根据权利要求8所述的设备,其特征在于,还包括:训练模块,用于将各所述音帧的声学特征依次输入至语音活动性检测VAD模型之前,对待训练语音进行分帧处理,得到多个待训练的音帧;

获取各所述待训练的音帧的声学特征以及各所述待训练的音帧的声学特征对应的标签;所述标签用于指示待训练的音帧的分类结果,所述待训练语音中的前N个语音帧被分类为噪声帧、第N+1个语音帧至最后一个语音帧被分类为语音帧、所述最后一个语音帧之后的M个噪声帧被分类为语音帧;

根据所述待训练的音帧的声学特征以及各所述待训练的音帧对应的标签,对待训练的VAD模型进行训练,得到训练后的VAD模型。

12.根据权利要求11所述的设备,其特征在于,所述训练模块具体用于:对各所述待训练的音帧的声学特征依次进行标注处理,得到各所述待训练的音帧的声学特征对应的候选标签;

对前N个用于指示语音帧的候选标签进行修改,得到修改后的第一标签,所述第一标签用于指示前N个语音帧被分类为噪音帧;

对最后一个语音帧之后的M个用于指示噪声帧的候选标签进行修改,得到修改后的第二标签,所述第二标签用于指示所述M个噪声帧被分类为语音帧;

根据剩余的候选标签、所述第一标签和所述第二标签,得到各所述待训练的音帧的声学特征对应的标签。

13.根据权利要求8至12任一项所述的设备,其特征在于,所述VAD模型为深度神经网络模型。

14.根据权利要求8至12任一项所述的设备,其特征在于,所述N大于等于M。

15.一种语音端点检测设备,其特征在于,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的语音端点检测方法。

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的语音端点检测方法。