1.基于机器学习的智能语音交互误唤醒系统,该系统应用到至少两个智能语音设备和一个智能监控设备,其特征在于:该系统包括特征采集模块、验证比对模块以及执行输出模块;
其中,所述特征采集模块包括第一语音采集单元、第二语音采集单元以及口型采集单元,第一语音采集单元和第二语音采集单元均用于采集语音数据,并获取唤醒词准确度评估值Pgz,所述口型采集单元用于对人体脸部进行动态图像捕捉,并提取口型动态数据;所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元;
所述验证比对模块用于对唤醒词准确度评估值Pgz及口型动态数据做综合评估;
所述分析子单元用于提取语音特征,建立模型训练并完成评估;
其中,分析子单元的具体步骤为:
S1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率P、频域能量N以及频域过零率L;
S2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型;
S3、在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后,关联获取唤醒词准确度评估值Pgz;
方式如下:
式中,
若是唤醒词准确度评估值Pgz
若是唤醒词准确度评估值Pgz
所述执行输出模块根据综合评估的结果来选择是否唤醒智能语音设备。
2.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述预处理子单元用于对采集到的语音数据进行标记,标记出唤醒词在每个语音片段中的位置,记录其他噪音数据,并完成噪音抑制。
3.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述口型采集单元的使用步骤如下:S101、设备设置:选取深度摄像头作为智能监控设备,并将其固定安装于适当位置,以确保深度摄像头能够清晰地捕捉到人体脸部动态图像;
S102、脸部检测和跟踪:使用人脸识别算法,从深度摄像头拍摄的视频中检测和识别出人脸区域,使用人脸跟踪算法跟踪人脸区域的位置和姿态;
S103、口型提取:在脸部图像中,通过关键点检测法定位嘴唇区域的关键点,根据关键点的位置和运动,提取口型动态数据。
4.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述口型采集单元还包括判定子单元,若是能够提取到口型动态数据时,则进入验证比对模块完成下一步操作,若是无法提取到口型动态数据时,则触发提醒指令,并将该指令通过智能监控设备内置的蓝牙模块发送至另一智能语音设备,该设备则开启第二语音采集单元。
5.根据权利要求4所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述验证比对模块包括数据库对比单元和评估值比对单元。
6.根据权利要求5所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述数据库对比单元用于将检测到的口型动态数据与数据库进行比对,并作为第一语音采集单元的验证节点;
若是口型动态数据与数据库中录入的数据一致,则表示通过,若是口型动态数据与数据库中录入的数据不一致,则表示不通过;
所述评估值比对单元用于对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz;
将第一语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz1,将第二语音采集单元获取到的可用的唤醒词准确度评估值Pgz记为Pgz2;
误差绝对值的获取方式如下:
误差绝对值=∣Pgz1
若是误差绝对值
7.根据权利要求1所述的基于机器学习的智能语音交互误唤醒系统,其特征在于:所述执行输出模块用于获取验证比对模块的结果,若是通过,则执行第一策略,若是不通过,则执行第二策略;
其中,第一策略为对应的智能语音设备做出响应,被成功唤醒,并根据语音提示,执行后续操作,第二策略为对应的智能语音设备不做出响应,无法被唤醒,可重行执行数据采集的操作。
8.一种基于机器学习的智能语音交互误唤醒方法,使用权利要求1至7中的任一种系统,其特征在于:包括如下步骤:步骤一、通过第一语音采集单元采集语音数据,根据获取的唤醒词准确度评估值Pgz来选取可用的语音数据,同步使用口型采集单元,完成对人体脸部进行动态图像捕捉,并提取口型动态数据;所述第一语音采集单元、第二语音采集单元采集到的语音数据分别来源于两个智能语音设备,且第一语音采集单元和第二语音采集单元内均设有预处理子单元和分析子单元 ;
步骤二、在提取口型动态数据时使用到智能监控设备,在智能监控设备能够拍摄到用户的场景下,则将口型动态数据发送至数据库中进行对比,若口型一致,则完成验证,智能语音设备被成功唤醒,并根据语音提示,执行后续操作;
若口型不一致,则智能语音设备不做出响应,无法被唤醒;
步骤三、在智能监控设备无法拍摄到用户的场景下,则触发提醒指令,并将该指令发送给第二语音采集单元,使用第二智能语音设备再次执行步骤一中关于第一语音采集单元的操作;
步骤四、对比第一语音采集单元和第二语音采集单元内获取到的可用的唤醒词准确度评估值Pgz,并判断两个唤醒词准确度评估值Pgz之间的误差绝对值是否小于1,若是,则智能语音设备做出响应,被成功唤醒,若不是,则智能语音设备内的语音采集单元重复执行数据采集的操作,直至智能语音设备被唤醒;
其中,所述分析子单元用于提取语音特征,建立模型训练并完成评估;
分析子单元的具体步骤为:
S1、特征提取:针对语音片段中的标记位置,提取语音特征,该语音特征包括:频率P、频域能量N以及频域过零率L;
S2、模型训练:使用深度学习的神经网络,对提取到的语音特征进行训练,建立语音识别模型;
S3、在语音识别模型中对获取到的频率P、频域能量N以及频域过零率L进行无量纲处理后,关联获取唤醒词准确度评估值Pgz;
方式如下:
式中,
若是唤醒词准确度评估值Pgz
若是唤醒词准确度评估值Pgz