欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021102493056
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:包括以下步骤:S101:设备终端获取语音信号,并将所述语音信号转化为文字;

S102:将文字与设备终端语音唤醒库中的唤醒词进行匹配,若文字与唤醒词匹配成功,则进入步骤S103,否则流程结束;

S103:使用语音活动端点检测技术VAD对所述语音信号进行分离,得到分离后的语音信号;

S104:对分离后的语音信号进行预处理,得到预处理后的语音信号;

S105:对预处理后的语音信号提取各个声纹特征,包括:语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征;

S106:对各个声纹特征逐一串行合并,得到融合声纹特征;

S107:将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练,得到训练好的语音识别模型;

S108:利用训练好的语音识别模型检测语音攻击。

2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S104中,对分离后的语音信号进行预处理,具体包括:预加重处理、分帧处理和加窗处理;

预加重处理,具体如式(1):

y(n)=x(n)‑0.97*x(n‑1) (1)式(1)中,x(n)为分离后的语音信号;y(n)为预加重后的信号;

分帧处理:将预加重信号每N个采样点组成一帧;N为预设值;

加窗处理:将每帧信号乘以窗函数,得到加窗后信号,具体如式(2):Sw(n)=y(n)×W(n) (2)

式(2)中,W(n)为窗函数,Sw(n)为加窗后信号。

3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取梅尔倒谱系数MFCC特征具体过程如下:S201:对加窗后信号Sw(n)进行快速傅里叶变换,得到变换后的信号;

S202:对变换后的信号进行Mel滤波,得到滤波信号;

S203:计算滤波信号中每个滤波器组输出的对数能量;

S204:根据对数能量,使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。

4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中,提取语音段IMFCC特征具体过程为:将步骤S202中Mel滤波替换为IMel滤波,其余过程与提取梅尔倒谱系数MFCC特征保持不变,最终得到语音段IMFCC特征。

5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段常数Q变换倒谱系数CQCC特征,具体过程为:对预处理后的语音信号进行CQT变换,得到CQT信号;根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征,如式(3):式(3)中,CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征;l为均匀重新采样频CQ率区间的标号;p=0,1,...,L‑1,L为均匀重新采样频率区间总数;X (l)为CQT信号。

6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下:通过语音样本获取语音预测系数;根据所述语音预测系数,进行倒谱分析,得到语音段线性预测倒谱系数LPCC特征。

7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法,其特征在于:步骤S106中,对各个声纹特征进行合并前,还对其进行标准化处理;标准化如式(4)所示:2

式(4)中,x′为一维的声纹特征向量;为一维的声纹特征向量均值;s为一维的声纹特征向量标准差。