欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018109492090
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-08-21
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种音频信号的掩蔽阈值估计方法,其特征在于,包括:将待处理音频信号输入多任务的神经网络模型,所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的;

从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值;

利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

2.根据权利要求1所述的方法,其特征在于,还包括根据所述待处理音频信号的掩蔽阈值,采用以下公式对所述待处理音频信号进行去噪处理:estimate=h_mask.*noisy其中,noisy表示噪声的声学特征;estimate表示干净语音的声学特征的估计值;h_mask表示所述神经网络模型输出的掩蔽阈值。

3.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

4.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网;所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份,分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

5.根据权利要求4所述的方法,其特征在于,所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层;

所述掩蔽阈值输出层设置为全连接层;

采用sigmoid函数作为所述掩蔽阈值输出层的激活函数。

6.根据权利要求4所述的方法,其特征在于,所述用于音素类别输出的任务子网包括音素类别输出层;

所述音素类别输出层设置为全连接层;

采用softmax函数作为所述音素类别输出层的激活函数;

采用交叉熵作为所述音素类别输出层的损失函数。

7.根据权利要求1或2所述的方法,其特征在于,还包括采用以下公式计算所述掩蔽阈值的标签:其中,t表示时间的标度;f表示频域点的标号; 表示第(t,f)时频点的干净语音的功率; 表示第(t,f)时频点的带噪声的语音的功率。

8.根据权利要求1或2所述的方法,其特征在于,还包括:采用HMM-GMM模型将音频信号和音素类别对齐,识别出音频信号中的声母和韵母;

将识别出的声母和韵母作为音素类别的标签。

9.一种音频信号的掩蔽阈值估计装置,其特征在于,包括:输入单元,用于将待处理音频信号输入多任务的神经网络模型,所述神经网络模型是利用样本音频信号的声学特征、音素类别的标签和掩蔽阈值的标签训练得到的;

输出单元,用于从所述神经网络模型输出所述待处理音频信号的音素类别和所述待处理音频信号的掩蔽阈值;

优化单元,用于利用所述音素类别和所述掩蔽阈值对所述神经网络模型进行优化。

10.根据权利要求9所述的装置,其特征在于,还包括去噪处理单元,用于根据所述待处理音频信号的掩蔽阈值,采用以下公式对所述待处理音频信号进行去噪处理:estimate=h_mask.*noisy其中,noisy表示噪声的声学特征;estimate表示干净语音的声学特征的估计值;h_mask表示所述神经网络模型输出的掩蔽阈值。

11.根据权利要求9或10所述的装置,其特征在于,所述神经网络模型的输入特征包括音频信号的FFT幅值谱。

12.根据权利要求9或10所述的装置,其特征在于,所述神经网络模型包括输入子网、分裂层、用于音素类别输出的任务子网和用于掩蔽阈值输出的任务子网;所述分裂层用于将经过所述输入子网处理后的输入特征复制成两份,分别输出给所述用于音素类别输出的任务子网和所述用于掩蔽阈值输出的任务子网。

13.根据权利要求12所述的装置,其特征在于,所述用于掩蔽阈值输出的任务子网包括掩蔽阈值输出层;

所述掩蔽阈值输出层设置为全连接层;

所述掩蔽阈值输出层的激活函数采用sigmoid函数。

14.根据权利要求12所述的装置,其特征在于,所述用于音素类别输出的任务子网包括音素类别输出层;

所述音素类别输出层设置为全连接层;

所述音素类别输出层的激活函数采用softmax函数;

所述音素类别输出层的损失函数采用交叉熵。

15.根据权利要求9或10所述的装置,其特征在于,还包括第一标签生成单元,用于采用以下公式计算所述掩蔽阈值的标签:其中,t表示时间的标度;f表示频域点的标号; 表示第(t,f)时频点的干净语音的功率; 表示第(t,f)时频点的带噪声的语音的功率。

16.根据权利要求9或10所述的装置,其特征在于,还包括第二标签生成单元,用于:采用HMM-GMM模型将音频信号和音素类别对齐,识别出音频信号中的声母和韵母;

将识别出的声母和韵母作为音素类别的标签。

17.一种音频信号的掩蔽阈值估计装置,其特征在于,包括:一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。