1.基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:包括基于特征局部标准差的特征谱聚类方法和基于self-tuning算法的特征谱聚类方法;
设原始数据集为X={x1,x2,L,xn}∈Rm×n,xi(i=1,L,n)为列向量,是进行谱特征选择的原始特征列,m是样本数;
基于特征局部标准差的特征谱聚类方法包括以下步骤:
1)式(1)定义了反映特征xi(i=1,2,L,n)局部标准差的尺度参数定义σstd_i,根据式(1)计算新尺度参数σstd_i;
其中,特征xr是特征xi第r个最近邻,近邻度量依据为欧氏距离;
2)式(2)定义表达特征间相似性的亲和矩阵A=(Aij)i,j=1,2,L,n∈Rn×n;
其中,d(xi,xj)是特征xi,xj间的欧氏距离;
3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,L,n∈Rn×n,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;
4)根据式(4)计算规范化拉普拉斯矩阵L;
5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K(=m,样本数)大特征值对应的K个特征向量,构成矩阵V,即V=[v1,v2,L,vK]∈Rn×K,vi(i=1,2,L,K)是第i大特征值对应的特征向量,是列向量;
6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,L,n;j=1,L,K∈Rn×K;
7)对矩阵U进行K-means(K=m)聚类,将n个特征聚类为K个特征类簇;
8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集;
基于self-tuning算法的特征谱聚类方法包括以下步骤:
1)式(6)定义了反映特征xi(i=1,2,L,n)局部信息的局部尺度参数σi,根据式(6)计算特征xi的局部尺度参数σi;
σi=d(xi,xp) (6)
其中,特征xp是特征xi的第p个近邻,d(xi,xp)是特征xi到特征xp的欧氏距离;
2)式(7)定义表达特征间相似性的特征亲和矩阵A=(Aij)i,j=1,2,L,n∈Rn×n;
其中,其中,d(xi,xj)是特征xi,xj间的欧氏距离;
3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,L,n∈Rn×n,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;
4)根据式(4)计算规范化拉普拉斯矩阵L;
5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K(=m)大特征值对应n×K的K个特征向量,构成矩阵V,即V=[v1,v2,L,vK]∈R ,vi(i=1,2,L,K)是第i大特征值对应的特征向量,是列向量;
6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,L,n;j=1,L,K∈Rn×K;
7)对矩阵U进行K-means(K=m)聚类,将n个特征聚类为K个特征簇;
8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集。
2.根据权利要求1所述的基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:步骤8)基于熵排序来度量特征重要性,从K个特征簇中,选择每个特征簇的最重要特征,构成包含K个特征的特征子集,实现特征选择,具体步骤如下:n×K
1)特征谱聚类后的特征矩阵U=(Uij)i=1,L,n;j=1,L,K∈R ,其中Ui表示第i个特征,根据熵理论,特征矩阵U的熵定义为式(8);
其中,p(Ui)表示Ui的先验概率,由于特征的先验概率往往难以得到,计算中我们用相似度代替先验概率,因此,式(8)用式(9)代替;
其中,Sij表示特征Ui与Uj的相似度,定义为式(10);
其中,Distanceij表示特征Ui和Uj间距离,计算方法如式(11)所示;
其中,maxk和mink分别表示第k个样本在所有特征的最大值和最小值;
2)令式(12)E-Us表示从特征集合U中去掉特征Us后的特征集合U-{Us}的熵,则若说明删去特征Us将引起特征集合U更大的无序,因此,特征Us比Ut更重要,由此,将所有特征排序;
其中,U/Us=U-{Us};
3)从步骤7)所得的K个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集。
3.根据权利要求1所述的基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:步骤8)基于余弦相似性排序来度量特征重要性,对从K个特征类簇中,选择各特征簇中最重要的特征,即与该簇其他特征的余弦相似性之和最大的特征,作为本特征簇的代表特征,从而得到包含K个特征的特征子集,实现特征选择,具体步骤如下:
1)特征谱聚类后的特征矩阵U=(Uij)i=1,L,n;j=1,L,K∈Rn×K,其中Ui表示第i个特征,则,我们定义式(14)度量每个特征的重要性,即代表性,越重要的特征代表性越强;
其中,|UigUj|表示特征Ui,Uj内积的绝对值,||Ui||×||Uj||表示特征Ui,Uj模的乘积,Ni表示特征Ui所在特征簇的特征个数;
2)根据本部分步骤1)式(14)的定义,得到每个特征的重要度值,对各特征类簇的特征按其重要度排序;
3)从权利要求1(或2)的步骤7)所得的K(K=m)个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集。