欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103438740
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于人工智能的语音唤醒方法,其特征在于,包括:对在线录制的语音进行加窗分帧操作,获得至少一个语音帧;

对所述语音帧进行特征提取,获得语音特征;

通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算,获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率;

当所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值时,确定所述在线录制的语音中包括唤醒词;

所述通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算之前,还包括:

基于联结主义时间分类器的训练准则对基于卷积神经网络的初始模型进行训练,获得所述基于卷积神经网络的语音唤醒模型;

所述基于联结主义时间分类器的训练准则对基于卷积神经网络的初始模型进行训练,获得所述基于卷积神经网络的语音唤醒模型包括:利用训练数据,基于联结主义时间分类器的训练准则对基于卷积神经网络的初始模型进行训练,获得基于卷积神经网络的种子模型;

通过测试数据对所述基于卷积神经网络的种子模型进行测试,获得所述基于卷积神经网络的种子模型误识别的测试数据;

通过所述误识别的测试数据对所述基于卷积神经网络的种子模型进行再次训练,直至所述基于卷积神经网络的种子模型在开发集上收敛,获得所述基于卷积神经网络的语音唤醒模型;

所述获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率之后,还包括:

对预定数量的语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率分别进行累加,获得预定数量的语音帧包含的静态的语音特征对应于非唤醒词类别的后验概率,以及预定数量的语音帧包含的静态的语音特征对应于唤醒词类别的后验概率;

所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值包括:

预定数量的语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值。

2.根据权利要求1所述的方法,其特征在于,所述对在线录制的语音进行加窗分帧操作,获得至少一个语音帧之前,还包括:对用户输入的语音进行在线录制。

3.根据权利要求1所述的方法,其特征在于,所述语音帧包含的静态的语音特征包括:当前语音帧、所述当前语音帧之前第一数量的语音帧和所述当前语音帧之后第二数量的语音帧所包含的静态的语音特征。

4.一种基于人工智能的语音唤醒装置,其特征在于,包括:分帧模块,用于对在线录制的语音进行加窗分帧操作,获得至少一个语音帧;

提取模块,用于对所述分帧模块获得的语音帧进行特征提取,获得语音特征;

计算模块,用于通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算,获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率;

唤醒模块,用于当所述计算模块获得的所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值时,确定所述在线录制的语音中包括唤醒词;

还包括:

训练模块,用于在所述计算模块通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算之前,基于联结主义时间分类器的训练准则对基于卷积神经网络的初始模型进行训练,获得所述基于卷积神经网络的语音唤醒模型;

所述训练模块包括:模型训练子模块和数据挑选子模块;

所述模型训练子模块,用于利用训练数据,基于联结主义时间分类器的训练准则对基于卷积神经网络的初始模型进行训练,获得基于卷积神经网络的种子模型;

所述数据挑选子模块,用于通过测试数据对所述基于卷积神经网络的种子模型进行测试,获得所述基于卷积神经网络的种子模型误识别的测试数据;

所述模型训练子模块,还用于通过所述误识别的测试数据对所述基于卷积神经网络的种子模型进行再次训练,直至所述基于卷积神经网络的种子模型在开发集上收敛,获得所述基于卷积神经网络的语音唤醒模型;

所述计算模块,还用于在获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率之后,对预定数量的语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率分别进行累加,获得预定数量的语音帧包含的静态的语音特征对应于非唤醒词类别的后验概率,以及预定数量的语音帧包含的静态的语音特征对应于唤醒词类别的后验概率;

所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值包括:预定数量的语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值。

5.根据权利要求4所述的装置,其特征在于,还包括:录制模块,用于在所述分帧模块对在线录制的语音进行加窗分帧操作,获得至少一个语音帧之前,对用户输入的语音进行在线录制。

6.根据权利要求4所述的装置,其特征在于,所述语音帧包含的静态的语音特征包括:当前语音帧、所述当前语音帧之前第一数量的语音帧和所述当前语音帧之后第二数量的语音帧所包含的静态的语音特征。

7.一种计算机设备,其特征在于,包括:一个或多个处理器;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑3中任一所述的方法。

8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑3中任一所述的方法。