1.一种基于ResNet的语音DOA估计方法,其特征在于包括如下步骤:步骤1,利用MATLAB仿真训练数据集,数据集使用多个语音信号遍历测量范围,存储对应的角度和语音信号;
所述步骤1中,设麦克风阵列有M个阵元,阵元间距为d,每个阵元都是相同的全向麦克2
风,远场信号以θ入射;假设噪声为与入射信号独立的高斯白噪声,均值为0,方差为σ,则阵列在k时刻的输出为:x(k)=a(θ)s(k)+n(k)
式中,s(k)表示k时刻目标信源复振幅矢量;n(k)表示k时刻的M维加性噪声复矢量;a(θ)表示入射角为θ角的M维阵列流型矩阵;
所述M维阵列流型矩阵的表达式是:
式中, 其中λ为语音信号的波长,d为阵元间距,θ为语音信号入射角;
H
所述步骤1中,阵列信号的协方差矩阵为R=E[x(k)x(k)],对阵列信号协方差矩阵进行特征分解,K个较大特征值对应的特征矢量构成信号子空间Us,剩下的特征矢量构成噪声子空间UN;由噪声矢量和信号矢量之间的正交关系,得到空间谱函数为:H
式中,a(θ)为入射角为θ时的阵列流型,UN为信号的噪声子空间,a (θ)为a(θ)的共轭转置, 为UN的共轭转置;PMUSIC(θ)最大值点对应的是MISIC定位结果;
对x(k)进行分频处理,得到L个自频带信号x(k,fl),l=1,…,L,宽带MUSIC定位的空间谱函数为:其中,a(θ,fl)为频率为fl的自频带信号入射角为θ时的阵列流型,UN为信号的噪声子空H间,a (θ,fl)为a(θ,fl)的共轭转置, 为UN的共轭转置;PWMUSIC(θ)最大值点对应的θ是宽带MUSIC定位结果;
步骤2,对每个仿真信号分帧处理后,计算GCC并做相位变换;根据阵列模型参数对其进行裁剪后,对每个语音帧加权求和;存储加权后的特征和对应的入射角度作为数据集;
所述步骤2中,设阵列模型中的第m和n个麦克风阵元接收的实际信号分别为xm(k)和xn(k),则:xm(k)=ams(k‑τm)+nem(k)+nrm(k) (1)xn(k)=ans(k‑τn)+nen(k)+nrn(k) (2)式中,nem(k)、nen(k)分别表示在k时刻第m、n个麦克风接收环境中的加性噪声,nrm(k)、nrn(k)分别为在k时刻第m、n个麦克风接收的多径反射噪声,am、an为第m、n个麦克风接收信号的幅度衰减因子,τm、τn为声源信号传播到第m、n个麦克风所用的时间,s(k)为声源信号;
忽略混响和噪声的影响,xm(k)和xn(k)的相关函数为:将式(1)和式(2)代入上式,得:
其中,Rss[τ‑(τm‑τn)]为s(k‑τm)和s(k‑τn)的相关函数, 为s(k)和nen(k)的相关函数, 为s(k)和nem(k)的相关函数, 为nem(k)和nen(k)的相关函数;
设s(k),nem(k)和nen(k)之间互不相关,则式(3)写为:式中,τmn=τm‑τn,Rss(τ)为声源s(t)的自相关函数;
当τ‑τmn=0时, 取得最大值,因此通过 最大值估计两个麦克风阵元接收信号的时延τmn;
由互相关函数和互功率谱的关系,得:
广义互相关通过在式(4)加上加权函数得:
式中, 为加权函数, 为两个信号的互功率谱,f为信号分频,τ为xm(k)、xn(k)之间的时间延迟;
步骤3,使用MATConvNet初始化ResNet并使用数据集训练;
所述步骤3中,设ResNet的期望映射为H(x),网络输入为x,则残差结构的期望映射变为F(x)=H(x)‑x,最终的输出结果为F(x)+x,F(x)+x通过外加求和单元的前馈神经网络实现;
所述步骤3中,将数据集根据入射角度分成数个分组,每组宽度10°相邻两组之间的前进步长为7.5°,分别使用每个分组的数据集训练一个ResNet;
步骤4,对待测信号使用宽带MUSIC粗定位,得到粗定位结果,根据粗定位结果,选取中心点距离宽带MUSIC结果最近的分组ResNet进行后续精确定位,得到DOA估计结果。