知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于ResNet的语音DOA估计方法

面议

专利号： 2018112015701

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

专利领域：测量；测试

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于ResNet的语音DOA估计方法，其特征在于包括如下步骤：步骤1，利用MATLAB仿真训练数据集，数据集使用多个语音信号遍历测量范围，存储对应的角度和语音信号；

步骤2，对每个仿真信号分帧处理后，计算GCC并做相位变换；根据阵列模型参数对其进行裁剪后，对每个语音帧加权求和；存储加权后的特征和对应的入射角度作为数据集；

步骤3，使用MATConvNet初始化ResNet并使用数据集训练；

步骤4，对待测信号使用宽带MUSIC粗定位，得到粗定位结果，根据粗定位结果，选取中心点距离宽带MUSIC结果最近的分组ResNet进行后续精确定位，得到DOA估计结果。

2.如权利要求1所述的基于ResNet的语音DOA估计方法，其特征在于：所述步骤1中，设麦克风阵列有M个阵元，阵元间距为d，每个阵元都是相同的全向麦克风，远场信号以θ入射；

假设噪声为与入射信号独立的高斯白噪声，均值为0，方差为σ2，则阵列在k时刻的输出为：x(k)＝a(θ)s(k)+n(k)

式中，s(k)表示k时刻目标信源复振幅矢量；n(k)表示k时刻的M维加性噪声复矢量；a(θ)表示入射角为θ角的M维阵列流型矩阵。

3.如权利要求2所述的基于ResNet的语音DOA估计方法，其特征在于：所述M维阵列流型矩阵a(θ)的表达式是：式中，其中λ为语音信号的波长，d为阵元间距，θ为语音信

号入射角。

4.如权利要求2所述的基于ResNet的语音DOA估计方法，其特征在于：所述步骤1中，阵H列信号的协方差矩阵为R＝E[x(k)x (k)]，对阵列信号协方差矩阵进行特征分解，K个较大特征值对应的特征矢量构成信号子空间Us，剩下的特征矢量构成噪声子空间UN；由噪声矢量和信号矢量之间的正交关系，得到空间谱函数为：式中，a(θ)为入射角为θ时的阵列流型，UN为信号的噪声子空间，aH(θ)为a(θ)的共轭转置，为UN的共轭转置；PMUSIC(θ)最大值点对应的是MISIC定位结果；

对x(k)进行分频处理，得到L个自频带信号x(k,fl)，l＝1，…，L，宽带MUSIC定位的空间谱函数为：其中，a(θ,fl)为频率为fl的自频带信号入射角为θ时的阵列流型，UN为信号的噪声子空间，aH(θ,fl)为a(θ,fl)的共轭转置，为UN的共轭转置；PWMUSIC(θ)最大值点对应的θ是宽带MUSIC定位结果。

5.如权利要求1所述的基于ResNet的语音DOA估计方法，其特征在于：所述步骤2中，设阵列模型中的第m和n个麦克风阵元接收的实际信号分别为xm(k)和xn(k)，则：xm(k)＝ams(k-τm)+nem(k)+nrm(k) (1)xn(k)＝ans(k-τn)+nen(k)+nrn(k) (2)式中，nem(k)、nen(k)分别表示在k时刻第m、n个麦克风接收环境中的加性噪声，nrm(k)、nrn(k)分别为在k时刻第m、n个麦克风接收的多径反射噪声，am、an为第m、n个麦克风接收信号的幅度衰减因子，τm、τn为声源信号传播到第m、n个麦克风所用的时间，s(k)为声源信号；

忽略混响和噪声的影响，xm(k)和xn(k)的相关函数为：

将式(1)和式(2)代入上式，得：

其中，Rss[τ-(τm-τn)]为s(k-τm)和s(k-τn)的相关函数，为s(k)和nen(k)的相关函数，为s(k)和nem(k)的相关函数，为nem(k)和nen(k)的相关函数；

设s(k)，nem(k)和nen(k)之间互不相关，则式(3)写为：式中，τmn＝τm-τn，Rss(τ)为声源s(t)的自相关函数；

当τ-τmn＝0时，取得最大值，因此通过最大值估计两个麦克风阵元接收信号的时延τmn；

由互相关函数和互功率谱的关系，得：

广义互相关通过在式(4)加上加权函数得：

式中，为加权函数，为两个信号的互功率谱，f为信号分频，τ为xm(k)、xn(k)之间的时间延迟。

6.如权利要求1所述的基于ResNet的语音DOA估计方法，其特征在于：所述步骤3中，设ResNet的期望映射为H(x)，网络输入为x,则残差结构的期望映射变为F(x)＝H(x)-x，最终的输出结果为F(x)+x，F(x)+x通过外加求和单元的前馈神经网络实现。

7.如权利要求1所述的基于ResNet的语音DOA估计方法，其特征在于：所述步骤3中，将数据集根据入射角度分成数个分组，每组宽度10°相邻两组之间的前进步长为7.5°，分别使用每个分组的数据集训练一个ResNet。