1.一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:包括以下步骤:S101:设备终端获取语音信号,并将所述语音信号转化为文字;
S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束;
S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号;
S104:对分离后的语音信号进行预处理,得到预处理后的语音信号;
S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征;
S106:对各个声纹特征逐一串行合并,得到融合声纹特征;
S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;
S108:利用训练好的语音识别模型检测语音攻击。
2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S104中,对分离后的语音信号进行预处理,具体包括:预加重处理、分帧处理和加窗处理;
预加重处理,具体如式(1):
y(n)=x(n)‑0.97*x(n‑1) (1)式(1)中,x(n)为分离后的语音信号;y(n)为预加重后的信号;
分帧处理:将预加重信号每N个采样点组成一帧;N为预设值;
加窗处理:将每帧信号乘以窗函数,得到加窗后信号,具体如式(2):Sw(n)=y(n)×W(n) (2)
式(2)中,W(n)为窗函数,Sw(n)为加窗后信号。
3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取梅尔倒谱系数MFCC特征具体过程如下:S201:对加窗后信号Sw(n)进行快速傅里叶变换,得到变换后的信号;
S202:对变换后的信号进行Mel滤波,得到滤波信号;
S203:计算滤波信号中每个滤波器组输出的对数能量;
S204:根据对数能量,使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。
4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取语音段IMFCC特征具体过程为:将步骤S202中Mel滤波替换为IMel滤波,其余过程与提取梅尔倒谱系数MFCC特征保持不变,最终得到语音段IMFCC特征。
5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段常数Q变换倒谱系数CQCC特征,具体过程为:对预处理后的语音信号进行CQT变换,得到CQT信号;根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征,如式(3):式(3)中,CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征;l为均匀重新采样频CQ率区间的标号;p=0,1,...,L‑1,L为均匀重新采样频率区间总数;X (l)为CQT信号。
6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下:通过语音样本获取语音预测系数;根据所述语音预测系数,进行倒谱分析,得到语音段线性预测倒谱系数LPCC特征。
7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S106中,对各个声纹特征进行合并前,还对其进行标准化处理;标准化如式(4)所示:2
式(4)中,x′为一维的声纹特征向量;为一维的声纹特征向量均值;s为一维的声纹特征向量标准差。