欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2011104152160
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-04-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种优化语音识别声学模型的方法,其特征在于,包括下列步骤:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;

A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;

A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;

A4、以更新后的训练数据对所述语音识别声学模型进行重训练。

2.根据权利要求1所述的方法,其特征在于,所述步骤A3中包括:以全部被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;或者,对所述被识别错误的语音段进行过滤,以过滤后的语音段及其标注脚本更新语音识别声学模型的训练数据,过滤过程具体包括:A31、以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;

A32、如果获取的所述静音数据时长大于预设的阈值,则过滤上述语音段。

3.根据权利要求2所述的方法,其特征在于,所述步骤A31之前,还包括:A30、检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。

4.根据权利要求2所述的方法,其特征在于,步骤A32中所述的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。

5.根据权利要求1所述的方法,其特征在于,在步骤A2中确定被识别错误的语音段的权重;以及在步骤A4中根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。

6.一种优化语音识别声学模型的系统,其特征在于,包括:获取单元,用于采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;

对比单元,用于将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;

更新单元,用于以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;

训练单元,用于以更新后的训练数据对所述语音识别声学模型进行重训练。

7.根据权利要求6所述的系统,其特征在于,所述更新单元中包括:强制对齐子单元,用于以所述标注脚本为依据,将被识别错误的语音段与其标注脚本强制对齐,并获取强制对齐后的语音段中的静音数据时长;

过滤子单元,用于在判定强制对齐子单元获取的静音数据时长大于预设的阈值时,过滤上述语音段。

8.根据权利要求7所述的系统,其特征在于,所述更新单元中还包括:端点检测子单元,用于在强制对齐子单元完成强制对齐操作之前,检测所述语音段中语音数据的端点,以及在所述语音数据的前后端各保留预设时长的静音数据。

9.根据权利要求7所述的系统,其特征在于,过滤子单元所依据的静音数据时长为强制对齐后的语音段中前端静音数据时长,或者为强制对齐后的语音段中后端静音数据时长,或者为强制对齐后的语音段中前、后端静音数据时长之和。

10.根据权利要求6所述的系统,其特征在于,对比单元还确定被识别错误的语音段的权重;以及训练单元根据所述权重和更新后的训练数据对所述语音识别声学模型进行重训练。