1.一种基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述方法包括:S11、利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
S12、依据所述采样语料集,进行数据增强;
S13、生成训练语料;
所述利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集具体包括:S111、给定采样语料数量n,初始化空语料集M;
S112、当所述M中的语料数量小于n时,循环S1121‑S1124:S1121、选取一个真实词序列w;
S1122、通过逆伽马分布函数近似方法推断近似后验参数S1123、通过变分分布qφ(w|z)采样S1124、将采样语料 加入M中;
S13、生成所述采样语料集;
所述生成训练语料具体包括如下步骤:S131、首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
S132、利用pη(w|z)采样得到生成词序列S133、利用生成词生成词序列 训练口语理解联合模型,推断S134、生成槽填充与意图识别结果S135、将 和 一起组成新的训练语料 并添加至生成语料集中。
2.如权利要求1所述的基于狄利克雷变分自编码器的口语理解方法,其特征在于,所述进行数据增强具体包括:通过潜在变量z和采样语料 对语义槽填充和意图识别任务进行数据增强。
3.一种基于狄利克雷变分自编码器的口语理解系统,其特征在于,所述系统包括:采样语料集生成模块,被配置为利用狄利克雷变分自编码器对训练语料进行采样,生成采样语料集;
数据增强模块,被配置为依据所述采样语料集,进行数据增强;
训练语料生成模块,被配置为生成训练语料;
所述采样语料集生成模块具体包括:第一子模块,被配置为给定采样语料数量n,初始化空语料集M;
第二子模块,被配置为当所述M中的语料数量小于n时,循环S1121‑S1124:S1121、选取一个真实词序列w;
S1122、通过逆伽马分布函数近似方法推断近似后验参数S1123、通过变分分布qφ(w|z)采样S1124、将采样语料 加入M中;
第三子模块,被配置为生成所述采样语料集;
所述训练语料生成模块具体包括:第一子单元,被配置为首先采样z~qφ(z),然后利用狄利克雷变分自编码器近似估计pη(w|z);
第二子单元,被配置为利用pη(w|z)采样得到生成词序列第三子单元,被配置为利用生成词生成词序列 训练口语理解联合模型,推断第四子单元,被配置为生成槽填充与意图识别结果第五子单元,被配置为将 和 一起组成新的训练语料 并添加至生成语料集中。
4.如权利要求3所述的系统,其特征在于,所述数据增强模块还被具体被配置为:通过潜在变量z和采样语料 对语义槽填充和意图识别任务进行数据增强。