知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于StarGAN的语音识别模型的防御方法

￥37100

专利号： 2020111724854

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于StarGAN的语音识别模型的防御方法，其特征在于，包括以下步骤：

构建StarGAN模型，所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器，所述生成器用于根据输入音频样本生成具有给定属性的生成音频，所述判别器用于判别输入音频在给定属性下的预测置信度，所述分类器用于分类输入音频的分类置信度；

构建StarGAN模型的训练损失函数，损失函数包括对抗损失函数、分类损失函数，循环一致损失函数，其中，所述对抗损失函数用来提升生成器和判别器的性能，使生成音频仍符合给定属性下的音频数据分布，所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升，所述循环一致性损失用于保留音频的语音信息以及生成器的多样性，即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效；

利用正常音频和对抗音频组成的训练样本集，以训损失函数最小为目标对StarGAN模型进行训练，训练结束后，提取训练好分类器和生成器用于语音识别；

语音识别过程中，利用训练好的分类器对原始音频进行分类，当分类结果为正常音频时，直接利用语音识别模型对原始音频进行语音识别，获得语音识别结果；当分类结果不为正常音频时，利用生成器对原始音频生成符合给定的正常音频属性的生成音频，再利用语音识别模型对生成音频进行语音识别，获得语音识别结果。

2.如权利要求1所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述对抗损失函数Ladv为：其中，c～p(c)表示属性c服从属性c的概率分布p(c)，y～p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c)，D(y,c)表示判别器D对音频y在给定属性c下的预测置信度，E(·)表示数学期望值，x～p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x)，G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频，D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。

3.如权利要求1或2所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述分类损失函数Lcls为：其中，pC(c|y)表示分类器C对音频y在属性c下的分类置信度分布，pC(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分类置信度分布，E(·)表示数学期望值。

4.如权利要求1或3所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述循环一致损失函数Lcyc为：其中，c′～p(c)表示属性c′概率分布p(c)，x～p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′)，G(G(x,c),c′)表示生成器G对生成音频G(x,c)生成给定属性c′下的生成音频，G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频，表示‖·‖ρ表示Lρ范数，损失函数Ladv表示为：

L＝Ladv+Lcls+Lcyc。

5.如权利要求4所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述生成器的网络结构包括二维卷积层，二维实例正则化以及残差卷积块。

6.如权利要求4所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述判别器的网络结构包括二维卷积层和残差卷积块。

7.如权利要求4所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述分类器的网络结构包括二维卷积层和残差卷积块。

8.如权利要求5～7任一项所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述残差卷积块包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2，所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。

9.如权利要求4所述的基于StarGAN的语音识别模型的防御方法，其特征在于，采用FGSM、DeepFool、PGD、GA、PSO、CS方法攻击语音识别模型，获得对抗音频。