1.一种基于StarGAN的语音识别模型的防御方法,其特征在于,包括以下步骤:构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的预测置信度,所述分类器用于分类输入音频的分类置信度;
构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致损失函数用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
2.如权利要求1所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述对抗损失函数Ladv为:
其中,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),D(y,c)表示判别器D对音频y在给定属性c下的预测置信度,E(·)表示数学期望值,x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x),G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频,D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。
3.如权利要求1或2所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类损失函数Lcls为:
其中,pC(c|y)表示分类器C对音频y在属性c下的分类置信度分布,pC(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分类置信度分布,E(·)表示数学期望值,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x)。
4.如权利要求1所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述循环一致损失函数Lcyc为:
其中,c′~p(c)表示属性c′概率分布p(c),x~p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′),G(G(x,c),c′)表示生成器G对生成音频G(x,c)生成给定属性c′下的生成音频,G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频,表示‖·‖ρ表示Lρ范数,c~p(c)表示属性c服从属性c的概率分布p(c);
损失函数Ladv表示为:
L=Ladv+Lcls+Lcyc。
5.如权利要求3所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述循环一致损失函数Lcyc为:
其中,c′~p(c)表示属性c′概率分布p(c),x~p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′),G(G(x,c),c′)表示生成器G对生成音频G(x,c)生成给定属性c′下的生成音频,G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频,表示‖·‖ρ表示Lρ范数,c~p(c)表示属性c服从属性c的概率分布p(c),损失函数Ladv表示为:
L=Ladv+Lcls+Lcyc。
6.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述生成器的网络结构包括二维卷积层,二维实例正则化以及残差卷积块。
7.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述判别器的网络结构包括二维卷积层和残差卷积块。
8.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类器的网络结构包括二维卷积层和残差卷积块。
9.如权利要求6或7所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述残差卷积块包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2,所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。
10.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,采用FGSM、DeepFool、PGD、GA、PSO或CS方法攻击语音识别模型,获得对抗音频。