1.一种声学模型训练方法,其特征在于,包括:
获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;
从所述有监督语音数据和无监督语音数据中提取语音特征;
利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型;
其中,所述深度学习的网络结构包括输入层、至少一层隐含层和输出层;
其中,输入层为有监督学习任务和无监督学习任务共享;
所述至少一层隐含层中的第一部分隐含层为有监督学习任务和无监督学习任务共享,第二部分隐含层分别由有监督学习任务和无监督学习任务单独进行训练调整;
输出层包括有监督学习任务输出层和无监督学习任务输出层。
2.根据权利要求1所述的方法,其特征在于,所述深度学习的网络结构包括输入层、至少一层隐含层和输出层;
其中,输入层为有监督学习任务和无监督学习任务共享;
至少一层隐含层为有监督学习任务和无监督学习任务共享,由有监督语音数据和无监督语音数据共同进行训练;
输出层包括有监督学习任务输出层和无监督学习任务输出层。
3.根据权利要求2或1所述的方法,其特征在于,
在模型训练完成后,最终获得的声学模型是丢弃由无监督学习任务训练调整的隐含层参数和/或输出层参数后得到的声学模型,以便在推理阶段只保留声学模型中有监督学习任务部分的输出结果;或者在模型训练完成后,最终获得的声学模型是保留全部的模型参数得到的声学模型,以便在推理阶段同时保留有监督学习任务的输出结果和无监督学习任务的输出结果,并进行融合,作为最终的输出结果。
4.根据权利要求1所述的方法,其特征在于,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型,包括:对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以按照预先对有监督学习任务和无监督学习任务设置的各自的权重来进行训练并获得声学模型。
5.根据权利要求1所述的方法,其特征在于,在所述获取有监督语音数据和无监督语音数据之后,并在所述提取语音特征之前,所述方法还包括:通过置信度过滤手段对所述无监督语音数据进行过滤和筛选。
6.一种声学模型训练装置,其特征在于,包括:
数据获取模块,用于获取有监督语音数据和无监督语音数据,其中,有监督语音数据为带有人工标注的语音数据,无监督语音数据为带有机器标注的语音数据;
特征提取模块,用于从所述有监督语音数据和无监督语音数据中提取语音特征;
模型训练模块,用于利用深度学习的网络结构,对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以训练并获得声学模型;
其中,所述深度学习的网络结构包括输入层、至少一层隐含层和输出层;
其中,输入层为有监督学习任务和无监督学习任务共享;
所述至少一层隐含层中的第一部分隐含层为有监督学习任务和无监督学习任务共享,第二部分隐含层分别由有监督学习任务和无监督学习任务单独进行训练调整;
输出层包括有监督学习任务输出层和无监督学习任务输出层。
7.根据权利要求6所述的装置,其特征在于,所述深度学习的网络结构包括输入层、至少一层隐含层和输出层;
其中,输入层为有监督学习任务和无监督学习任务共享;
至少一层隐含层为有监督学习任务和无监督学习任务共享,由有监督语音数据和无监督语音数据共同进行训练;
输出层包括有监督学习任务输出层和无监督学习任务输出层。
8.根据权利要求6或7所述的装置,其特征在于,
在模型训练完成后,最终获得的声学模型是丢弃由无监督学习任务训练调整的隐含层参数和/或输出层参数后得到的声学模型,以便在推理阶段只保留声学模型中有监督学习任务部分的输出结果;或者在模型训练完成后,最终获得的声学模型是保留全部的模型参数得到的声学模型,以便在推理阶段同时保留有监督学习任务的输出结果和无监督学习任务的输出结果,并进行融合,作为最终的输出结果。
9.根据权利要求6所述的装置,其特征在于,所述模型训练模块具体用于:对所述有监督语音数据和无监督语音数据的语音特征分别进行有监督学习任务和无监督学习任务的多任务学习,以按照预先对有监督学习任务和无监督学习任务设置的各自的权重来进行训练并获得声学模型。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:过滤模块,用于在所述数据获取模块获取有监督语音数据和无监督语音数据之后,并在所述特征提取模块提取语音特征之前,通过置信度过滤手段对所述无监督语音数据进行过滤和筛选。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的声学模型训练方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的声学模型训练方法。