欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201710922732X
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语音唤醒方法,其特征在于,包括:检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景,其中,检测所述终端设备的场景语音,对所述场景语音进行语料分析,获取所述场景语音的语料集合以及确定所述语料集合对应的场景,将所述语料集合对应的场景确定为所述终端设备所处的当前场景,其中,在所述终端设备中配置对不同场景对应的语料进行深度学习的场景模型,通过将语料集合输入到所述场景模型进行深度学习,以获取到语料集合对应的场景;

根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值,所述当前场景包括噪声场景和安静场景,所述噪声场景对应的第一阈值高于所述安静场景对应的第一阈值,所述噪声场景对应的第二阈值高于所述安静场景对应的第二阈值;

根据第一声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音和预设唤醒词信号之间的第一相似度;

判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值;

若判断结果为是,将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度,若所述第二相似度大于所述第一阈值,则生成用于唤醒所述终端设备的唤醒指令;其中,所述第二声学模型的识别精度大于所述第一声学模型的识别精度;

接收所述唤醒指令并执行唤醒所述终端设备的操作。

2.如权利要求1所述的方法,其特征在于,所述若所述第二相似度大于所述第一阈值,则生成用于唤醒所述终端设备的唤醒指令,包括:根据所述第二声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音对应的发音序列;

根据语言模型对所述唤醒语音对应的发音序列进行分析,获取所述唤醒语音对应的文本序列;

将所述唤醒语音对应的文本序列和所述预设唤醒词信号对应的文本序列进行匹配;

若匹配成功,则生成用于唤醒所述终端设备的唤醒指令。

3.如权利要求1所述的方法,其特征在于,所述根据第一声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音和预设唤醒词信号之间的第一相似度,包括:根据所述唤醒语音的声学特征和所述第一声学模型确定所述唤醒语音的声学特征和所述预设唤醒词信号的声学特征之间的特征相似度;

根据各个所述特征相似度确定所述唤醒语音与所述预设唤醒词信号之间的第一相似度。

4.如权利要求1所述的方法,其特征在于,还包括:若所述第一相似度大于所述第一阈值,则执行唤醒所述终端设备的操作;

或者,若所述第一相似度小于所述第二阈值,则不执行唤醒所述终端设备的操作。

5.一种语音唤醒装置,其特征在于,包括:第一检测模块,用于检测输入到终端设备的唤醒语音;

第二检测模块,用于检测所述终端设备所处的当前场景;所述第二检测模块,具体用于:检测所述终端设备的场景语音,对所述场景语音进行语料分析,获取所述场景语音的语料集合以及确定所述语料集合对应的场景,将所述语料集合对应的场景确定为所述终端设备所处的当前场景,其中,在所述终端设备中配置对不同场景对应的语料进行深度学习的场景模型,通过将语料集合输入到所述场景模型进行深度学习,以获取到语料集合对应的场景;

阈值模块,用于根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值,所述当前场景包括噪声场景和安静场景,所述噪声场景对应的第一阈值高于所述安静场景对应的第一阈值,所述噪声场景对应的第二阈值高于所述安静场景对应的第二阈值;

分析模块,用于根据第一声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音和预设唤醒词信号之间的第一相似度;

判断模块,用于判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值,若判断结果为是,触发发送模块;

发送模块,用于将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度,若所述第二相似度大于所述第一阈值,则生成用于唤醒所述终端设备的唤醒指令;其中,所述第二声学模型的识别精度大于所述第一声学模型的识别精度;

第一执行模块,用于接收所述唤醒指令并执行唤醒所述终端设备的操作。

6.如权利要求5所述的装置,其特征在于,所述云端服务器包括唤醒指令生成模块;

所述唤醒指令生成模块具体用于:根据所述第二声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音对应的发音序列;

根据语言模型对所述唤醒语音对应的发音序列进行分析,获取所述唤醒语音对应的文本序列;

将所述唤醒语音对应的文本序列和所述预设唤醒词信号对应的文本序列进行匹配;

若匹配成功,则生成用于唤醒所述终端设备的唤醒指令。

7.如权利要求5所述的装置,其特征在于,所述分析模块具体用于:根据所述唤醒语音的声学特征和所述第一声学模型确定所述唤醒语音的声学特征和所述预设唤醒词信号的声学特征之间的特征相似度;

根据各个所述特征相似度确定所述唤醒语音与所述预设唤醒词信号之间的第一相似度。

8.如权利要求5所述的装置,其特征在于,还包括:第二执行模块和第三执行模块;

若所述判断模块的判断结果为所述第一相似度大于所述第一阈值,触发第二执行模块;其中,所述第二执行模块用于执行唤醒所述终端设备的操作;

或者,若所述判断模块的判断结果为所述第一相似度小于所述第二阈值,触发第三执行模块;其中,所述第三执行模块用于不执行唤醒所述终端设备的操作。

9.一种计算机设备,其特征在于,包括:处理器和存储器;

其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一项所述的语音唤醒方法。

10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的语音唤醒方法。