1.一种基于人工智能韵律预测的样本标注方法,其特征在于,包括以下步骤:获取与第一样本音频文件对应的未标注韵律的第一文本序列;
获取所述第一文本序列中每个字的文本特征和发音时长;
应用预先训练的韵律标注模型对所述第一文本序列中每个字的文本特征和发音时长进行处理,获取所述第一文本序列中每个字的输出标记;
根据所述第一文本序列中每个字的输出标记对所述第一文本序列进行韵律层级标注。
2.如权利要求1所述的方法,其特征在于,在所述应用预先训练的韵律标注模型对所述每个字的文本特征和发音时长进行处理之前,还包括:获取与第二样本音频文件对应的已标注韵律的第二文本序列;
获取所述第二文本序列中每个字的文本特征和发音时长;
将所述第二文本序列中每个字的文本特征和发音时长作为输入特征,将所述已标注韵律的第二文本序列的标注结果作为输出标记,通过误差最小化的策略训练所述韵律标注模型中的参数;
根据所述韵律标注模型中的参数建立所述韵律标注模型。
3.如权利要求1所述的方法,其特征在于,所述韵律标注模型包括:深度神经网络和双向长短时记忆网络。
4.如权利要求1所述的方法,其特征在于,所述每个字的文本特征,包括:字向量编码、对应分词的词性、或者,对应分词的位置。
5.如权利要求4所述的方法,其特征在于,当所述文本特征为字向量编码,获取所述第一文本序列中每个字的字向量编码,包括:通过大数据语料库训练获取单字库,以及与所述单子库中的每个字对应的字向量表示;
查询所述单字库获取与所述第一文本序列中每个字对应的匹配字,并将与所述匹配字对应的字向量表示作为所述第一文本序列中每个字的字向量编码。
6.如权利要求1-5任一所述的方法,其特征在于,获取所述第一文本序列中每个字的发音时长,包括:将所述第一样本音频文件按照固定时长分帧,并获取每一帧对应的音子状态;
将每一帧对应的音子状态对齐到音子,进而对所述第一样本音频文件进行解码,获取每个字及静音段在所述第一样本音频文件对应的发音帧数;
根据所述发音帧数和所述固定时长获取所述第一文本序列中每个字的发音时长。
7.一种基于人工智能韵律预测的样本标注装置,其特征在于,包括:第一获取模块,用于获取与第一样本音频文件对应的未标注韵律的第一文本序列;
第二获取模块,用于获取所述第一文本序列中每个字的文本特征;
第三获取模块,用于获取所述第一文本序列中每个字的发音时长;
第一处理模块,用于应用预先训练的韵律标注模型对所述第一文本序列中每个字的文本特征和发音时长进行处理,获取所述第一文本序列中每个字的输出标记;
标注模块,用于根据所述第一文本序列中每个字的输出标记对所述第一文本序列进行韵律层级标注。
8.如权利要求7所述的装置,其特征在于,还包括:第四获取模块,用于获取与第二样本音频文件对应的已标注韵律的第二文本序列;
第五获取模块,用于获取所述第二文本序列中每个字的文本特征和发音时长;
第二处理模块,用于将所述第二文本序列中每个字的文本特征和发音时长作为输入特征,将所述已标注韵律的第二文本序列的标注结果作为输出标记,通过误差最小化的策略训练所述韵律标注模型中的参数;
建立模块,用于根据所述韵律标注模型中的参数建立所述韵律标注模型。
9.如权利要求7所述的装置,其特征在于,所述韵律标注模型包括:深度神经网络和双向长短时记忆网络。
10.如权利要求7所述的装置,其特征在于,所述每个字的文本特征,包括:字向量编码、对应分词的词性、或者,对应分词的位置。
11.如权利要求10所述的装置,其特征在于,当所述文本特征为字向量编码,所述第二获取模块用于:通过大数据语料库训练获取单字库,以及与所述单子库中的每个字对应的字向量表示;
查询所述单字库获取与所述第一文本序列中每个字对应的匹配字,并将与所述匹配字对应的字向量表示作为所述第一文本序列中每个字的字向量编码。
12.如权利要求7-11任一所述的装置,其特征在于,所述第三获取模块用于:将所述第一样本音频文件按照固定时长分帧,并获取每一帧对应的音子状态;
将每一帧对应的音子状态对齐到音子,进而对所述第一样本音频文件进行解码,获取每个字及静音段在所述第一样本音频文件对应的发音帧数;
根据所述发音帧数和所述固定时长获取所述第一文本序列中每个字的发音时长。