1.一种控制语音识别的方法,其特征在于,该方法包括:通过图像采集装置获取用户的行为图像;
若所述用户的行为图像满足语音识别功能的启动条件,则启动语音识别功能,开始获取用户输入的语音。
2.根据权利要求1所述的控制语音识别的方法,其特征在于,所述用户的行为图像包括:表情图像、手势图像或形体图像。
3.根据权利要求1或2所述的控制语音识别的方法,其特征在于,该方法还包括:预先根据设置的语音识别启动行为训练分类模型,得到语音识别启动模型;
利用所述语音识别启动模型对所述用户的行为图像进行分类,若分类结果为语音识别启动行为,则确定所述用户的行为图像满足语音识别功能的启动条件。
4.根据权利要求3所述的控制语音识别的方法,其特征在于,所述预先根据设置的语音识别启动行为训练分类模型,得到语音识别启动模型具体包括:获取训练数据,所述训练数据包括设置的语音识别启动行为图像和其他行为图像;
将语音识别启动行为图像作为正样本数据,所述其他行为图像作为负样本数据,训练分类模型,得到所述语音识别启动模型。
5.根据权利要求1所述的控制语音识别的方法,其特征在于,该方法还包括:启动语音识别功能之后,通过图像采集装置采集用户的表情图像;
利用情感识别模型对采集的表情图像进行识别,确定用户的情感。
6.根据权利要求2所述的控制语音识别的方法,其特征在于,该方法还包括:利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别,确定用户的情感。
7.根据权利要求5或6所述的控制语音识别的方法,其特征在于,该方法还包括:预先针对不同情感分别训练语音识别模型;
利用确定的所述用户的情感对应的语音识别模型,对所述用户输入的语音进行语音识别,得到语音识别结果。
8.根据权利要求5或6所述的控制语音识别的方法,其特征在于,该方法还包括:在针对语音识别结果的进一步处理进行语音反馈时,采用与确定出的所述用户的情感相对应的语音合成方式。
9.根据权利要求8所述的控制语音识别的方法,其特征在于,所述采用与确定出的所述用户的情感相对应的语音合成方式具体包括:预先针对同一内容分别设置不同情感对应的语音片段;
利用确定出的所述用户的情感对应的语音片段进行语音合成,得到语音反馈。
10.一种控制语音识别的装置,其特征在于,该装置包括:获取单元,用于通过图像采集装置获取用户的行为图像;
判断单元,用于判断所述用户的行为图像是否满足语音识别功能的启动条件,如果是,触发启动单元;
启动单元,用于收到所述判断单元的触发后,启动语音识别装置以使语音识别装置开始获取用户输入的语音。
11.根据权利要求10所述的控制语音识别的装置,其特征在于,所述用户的行为图像包括:表情图像、手势图像或形体图像。
12.根据权利要求10或11所述的控制语音识别的装置,其特征在于,所述判断单元具体用于,利用语音识别启动模型对所述用户的行为图像进行分类,若分类结果为语音识别启动行为,则确定所述用户的行为图像满足语音识别功能的启动条件;
其中所述语音识别启动模型是预先根据设置的语音识别启动行为训练分类模型所得到的。
13.根据权利要求12所述的控制语音识别的装置,其特征在于,该装置还包括:模型训练单元,用于获取训练数据,所述训练数据包括设置的语音识别启动行为图像和其他行为图像,将语音识别启动行为图像作为正样本数据,所述其他行为图像作为负样本数据,训练分类模型,得到所述语音识别启动模型。
14.根据权利要求10所述的控制语音识别的装置,其特征在于,该装置还包括情感识别单元;
所述获取单元,还用于在所述启动语音识别功能之后,通过图像采集装置采集用户的表情图像;
所述情感识别单元,用于利用情感识别模型对采集的表情图像进行识别,确定用户的情感。
15.根据权利要求11所述的控制语音识别的装置,其特征在于,该装置还包括情感识别单元,用于利用情感识别模型对满足语音识别功能的启动条件的用户的表情图像进行识别,确定用户的情感。
16.根据权利要求14或15所述的控制语音识别的装置,其特征在于,所述语音识别装置,用于利用所述情感识别单元确定的所述用户的情感对应的语音识别模型,对所述用户输入的语音进行语音识别,得到语音识别结果;
其中预先针对不同情感分别训练了语音识别模型。
17.根据权利要求14或15所述的控制语音识别的装置,其特征在于,该装置还包括:语音反馈单元,用于在针对语音识别结果的进一步处理进行语音反馈时,采用与确定出的所述用户的情感相对应的语音合成方式。
18.根据权利要求17所述的控制语音识别的装置,其特征在于,所述语音反馈单元具体用于,预先针对同一内容分别设置不同情感对应的语音片段,利用确定出的所述用户的情感对应的语音片段进行语音合成,得到语音反馈。