1.一种语音起点和终点检测方法,其特征在于,包括:获取待检测的语音数据;
将所述语音数据分割为语音片段,所述语音片段数大于一;
基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态;
根据所述语音状态确定出所述语音数据的起点和终点。
2.根据权利要求1所述的方法,其特征在于,至少相邻两个语音片段之间存在重叠。
3.根据权利要求1所述的方法,其特征在于,所述语音活动检测模型包括:卷积神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态包括:利用所述语音活动检测模型对所述语音片段进行分类;
基于所述语音活动检测模型的输出,利用维特比解码算法确定出所述语音片段的语音状态。
5.根据权利要求1所述的方法,其特征在于,训练得到所述语音活动检测模型包括:获取作为训练数据的语音数据;
分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段,N为大于一的正整数;
根据抽取出的样本片段训练得到所述语音活动检测模型。
6.根据权利要求5所述的方法,其特征在于,所述分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段包括:针对每条语音数据,分别获取所述语音数据的语音帧以及非语音帧标注结果;
根据所述标注结果,从所述语音数据中抽取出N个不同语音状态的样本片段。
7.根据权利要求5所述的方法,其特征在于,所述语音状态包括:
静音状态、起点状态、语音保持状态以及终点状态。
8.根据权利要求7所述的方法,其特征在于,所述分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段包括:分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段;
其中,所述起点状态的样本片段中,语音起点位于所述样本片段的前半部分,且与所述样本片段的起点距离大于预定阈值;
所述终点状态的样本片段中,语音终点位于所述样本片段的前半部分,且与所述样本片段的起点距离大于预定阈值。
9.根据权利要求7所述的方法,其特征在于,所述根据所述语音状态确定出所述语音数据的起点和终点包括:根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点。
10.一种语音起点和终点检测装置,其特征在于,包括:检测模块,所述检测模块中包括:第一获取单元、分割单元以及确定单元;
所述第一获取单元,用于获取待检测的语音数据;
所述分割单元,用于将所述语音数据分割为语音片段,所述语音片段数大于一;
所述确定单元,用于基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态,根据所述语音状态确定出所述语音数据的起点和终点。
11.根据权利要求10所述的装置,其特征在于,至少相邻两个语音片段之间存在重叠。
12.根据权利要求10所述的装置,其特征在于,所述语音活动检测模型包括:卷积神经网络模型。
13.根据权利要求10所述的装置,其特征在于,所述确定单元利用所述语音活动检测模型对所述语音片段进行分类,基于所述语音活动检测模型的输出,利用维特比解码算法确定出所述语音片段的语音状态。
14.根据权利要求10所述的装置,其特征在于,所述装置中进一步包括:训练模块;
所述训练模块中包括:第二获取单元、抽取单元以及训练单元;
所述第二获取单元,用于获取作为训练数据的语音数据;
所述抽取单元,用于分别从获取到的每条语音数据中抽取出N个不同语音状态的样本片段,N为大于一的正整数;
所述训练单元,用于根据抽取出的样本片段训练得到所述语音活动检测模型。
15.根据权利要求14所述的装置,其特征在于,所述抽取单元进一步用于,针对每条语音数据,分别获取所述语音数据的语音帧以及非语音帧标注结果,根据所述标注结果,从所述语音数据中抽取出N个不同语音状态的样本片段。
16.根据权利要求14所述的装置,其特征在于,所述语音状态包括:
静音状态、起点状态、语音保持状态以及终点状态。
17.根据权利要求16所述的装置,其特征在于,所述抽取单元分别从获取到的每条语音数据中随机抽取出N个不同语音状态的样本片段;
其中,所述起点状态的样本片段中,语音起点位于所述样本片段的前半部分,且与所述样本片段的起点距离大于预定阈值;
所述终点状态的样本片段中,语音终点位于所述样本片段的前半部分,且与所述样本片段的起点距离大于预定阈值。
18.根据权利要求16所述的装置,其特征在于,所述确定单元根据所述语音数据中的第一个起点状态的语音片段以及第一个终点状态的语音片段确定出所述语音数据的起点和终点。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。