欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107928870
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用于检测语音的端点的方法,包括:

基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;

对于所述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;

根据所述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定所述音频帧序列对应的音频中语音的端点。

2.根据权利要求1所述的方法,其中,所述基于获取到的音频数据,生成音频帧序列,包括:根据声能量,确定音频数据中的有效音频数据;

对于有效音频数据,进行移窗分帧,得到音频帧序列;

对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

3.根据权利要求2所述的方法,其中,所述对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型,包括:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;

对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,所述语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

4.根据权利要求3所述的方法,其中,语音检测模型通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;

对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;

将所述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为所述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

5.根据权利要求2所述的方法,其中,所述根据声能量,确定音频数据中的有效音频数据,包括:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;

确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;

响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

6.根据权利要求1-5中任一项所述的方法,其中,所述根据所述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定所述音频帧序列对应的音频中语音的端点,包括:根据所述音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将所述第一个音频帧对应的位置信息确定为初始位置信息;

根据所述初始位置信息和所述音频帧序列中所述第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

7.根据权利要求6所述的方法,其中,所述根据所述初始位置信息和所述音频帧序列中所述第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点,包括:对于所述音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与所述初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型;

从所述第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧;

响应于确定所述音频帧序列中连续出现预定数目个非语音类型的音频帧,根据所述预定数目个非语音类型的音频帧,确定语音的尾点。

8.一种用于检测语音的端点的装置,包括:

音频生成单元,被配置成基于获取到的音频数据,生成音频帧序列,其中,生成的音频帧序列中的音频帧与音频帧类型相对应,音频帧类型为语音类型或非语音类型;

位置确定单元,被配置成对于所述音频帧序列中的语音类型的音频帧,确定声源发出该音频帧对应的声音时的位置信息;

端点确定单元,被配置成根据所述音频帧序列中的音频帧对应的音频帧类型和位置信息,确定所述音频帧序列对应的音频中语音的端点。

9.根据权利要求8所述的装置,其中,所述音频生成单元包括:有效音频确定模块,被配置成根据声能量,确定音频数据中的有效音频数据;

移窗分帧模块,被配置成对于有效音频数据,进行移窗分帧,得到音频帧序列;

音频帧类型确定模块,被配置成对音频帧序列中的音频帧进行语音检测,确定音频帧对应的音频帧类型。

10.根据权利要求9所述的装置,其中,所述音频帧类型确定模块进一步被配置成:对于音频帧序列中的音频帧,提取该音频帧的预定义种类的音频特征值;

对于音频帧序列中的音频帧,将从该音频帧中提取的音频特征值导入预先建立的语音检测模型,生成音频帧类型,其中,所述语音检测模型用于表征音频特征值与音频帧类型之间的对应关系。

11.根据权利要求10所述的装置,其中,语音检测模型通过以下步骤建立:获取音频数据集合,音频数据集合中的音频数据与音频帧类型相对应;

对音频数据集合中的音频数据,提取预定义种类的音频特征值作为训练样本,以及生成训练样本集,其中,训练样本与音频帧类型对应;

将所述训练样本集中的训练样本作为初始神经网络的输入,将与输入的训练样本对应的音频帧类型作为所述初始神经网络的期望输出,训练初始神经网络,得到语音检测模型。

12.根据权利要求9所述的装置,其中,所述有效音频确定模块进一步被配置成:对获取到的音频数据按照固定长度采样点进行切分,得到至少一个子音频数据;

确定切分得到的各个子音频数据的声能量是否大于预设声能量阈值;

响应于确定子音频数据的声能量大于预设声能量阈值,则确定子音频数据为有效音频数据。

13.根据权利要求8-12中任一项所述的装置,其中,所述端点确定单元包括:起点确定模块,被配置成根据所述音频帧序列中的语音类型的第一个音频帧,确定语音的起点,以及将所述第一个音频帧对应的位置信息确定为初始位置信息;

尾点确定模块,被配置成根据所述初始位置信息和所述音频帧序列中所述第一个音频帧之后的语音类型的音频帧对应的位置信息,确定语音的尾点。

14.根据权利要求13所述的装置,其中,所述尾点确定模块进一步被配置成:对于所述音频帧序列中的语音类型的音频帧,确定该音频帧对应的位置信息所指示的位置与所述初始位置信息所指示的位置是否大于预设角度;响应于确定大于预设角度,将该音频帧的音频帧类型变更为非语音类型;

从所述第一个音频帧开始,确定音频帧序列中是否连续出现预定数目个非语音类型的音频帧;

响应于确定所述音频帧序列中连续出现预定数目个非语音类型的音频帧,根据所述预定数目个非语音类型的音频帧,确定语音的尾点。

15.一种电子设备,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。