1.基于堆叠基稀疏表示的音频事件分类方法,其特征是,包括:步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。
2.如权利要求1所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(1)根据经验法则,将帧长设定为30毫秒,帧移设定为20毫秒;
所述步骤(2)对每个音频样本提取39维MFCC特征,用所述39维MFCC特征来表达每个训练音频样本;
所述步骤(4),分帧处理时,设定帧长为30毫秒,帧移为20毫秒;
所述步骤(5)对测试音频文档中的每个帧提取39维MFCC特征,用所述39维MFCC特征来表达每个测试音频样本。
3.如权利要求1所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(6):对某一测试音频文档,假设其共有K个由39维MFCC特征表征的样本;基于步骤(3)构建的大型音频字典B,利用正交匹配追踪算法求得每个测试音频样本的稀疏表示系数;记第k个样本的稀疏表示系数为xk,其中,k=1,…,K,xk是M·N维的列向量,xk表示为:其中,xk1表示xk的第1维;xk(M·N)表示xk的第M·N维。
4.如权利要求3所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(7)对稀疏表示系数xk,k=1,…,K进行映射,假设映射后的稀疏系数记为yk,xk到yk的softmax映射关系式为:其中,ykj表示yk的第j维;xkj表示xk的第j维;xkd表示xk的第d维,j=1,…,M·N, 表示对xkj做以e为底数的指数函数运算, 表示对xkd做以e为底数的指数函数运算;e是数学常数。
5.如权利要求4所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(8)的步骤为:记通过yk求得的第k个音频样本在第i类音频事件上的置信度为fki;
fki的求解表达式为:
i=1,…,N;
N表示共有N类音频事件。
6.如权利要求5所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(9)的步骤为:记测试音频文档在第i类音频事件上的置信度为fi,i=1,…,N:
7.如权利要求6所述的基于堆叠基稀疏表示的音频事件分类方法,其特征是,所述步骤(10):记测试音频文档的分类判别类标签为label,则:
8.一种计算机设备,其特征是,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序运行时实现以下步骤:步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。
9.一种计算机可读存储介质,其特征是,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:步骤(1):训练音频分帧处理:对训练音频文档进行分帧处理,每帧作为一个训练音频样本;
步骤(2):对训练音频文档中的每个训练音频样本进行训练音频特征提取,用提取的训练音频特征表征训练音频样本;
步骤(3):通过堆叠基构建大型音频字典;
步骤(4):对测试音频文档进行和步骤(1)同样的分帧处理,每帧作为一个测试音频样本;
步骤(5):对测试音频文档中的每个测试音频样本进行测试音频特征提取,用提取的测试音频特征表征测试音频样本;
步骤(6):根据步骤(3)构建的大型音频字典,利用正交匹配追踪算法求得测试音频样本的稀疏表示系数;
步骤(7):通过softmax函数对稀疏表示系数进行映射;
步骤(8):通过映射后的稀疏表示系数求得每个测试音频样本在各类音频事件上的置信度;
步骤(9):通过对测试音频文档内所有音频样本的置信度取平均,求得测试音频文档在各类音频事件上的置信度;
步骤(10):求测试音频文档在各个音频事件类上的置信度的最大值,将测试音频文档的音频事件类判别为具有最大置信度值的音频事件类;
所述步骤(3)通过堆叠基构建大型音频字典的过程包括:步骤(3.1):训练集中包括若干类音频事件,对于每一类音频事件,用训练集中该类音频事件的样本作为K-SVD算法的输入,样本是用步骤(2)中提取的训练音频特征表征的训练音频样本;通过K-SVD算法创建该类音频事件的音频字典;
假设训练集中共有N类不同音频事件,记通过K-SVD算法创建的第i类音频事件的音频字典为Bi,其中,i=1,…,N;假设每类音频事件的音频字典中基函数的个数为M个,则Bi是尺寸为39×M的矩阵;
步骤(3.2):将各类音频事件的音频字典通过堆叠得到大型音频字典B:B=[B1 B2......BN]
B是尺寸为39×(M·N)的矩阵。