1.基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:包括基于特征局部标准差的特征谱聚类方法和基于self‑tuning算法的特征谱聚类方法;
m×n
设原始数据集为X={x1,x2,…,xn}∈R ,xi(i=1,…,n)为列向量,是进行谱特征选择的原始特征列,m是样本数;
基于特征局部标准差的特征谱聚类方法包括以下步骤:
1)式(1)定义了反映特征xi(i=1,2,…,n)局部标准差的尺度参数σstd_i,根据式(1)计算尺度参数σstd_i;
其中,特征xr是特征xi第r个最近邻,近邻度量依据为欧氏距离;
n×n
2)式(2)定义表达特征间相似性的亲和矩阵A=(Aij)i,j=1,2,…,n∈R ;
其中,d(xi,xj)是特征xi,xj间的欧氏距离;
n×n
3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,…,n∈R ,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;
4)根据式(4)计算规范化拉普拉斯矩阵L;
5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K大特征值对应的K个n×K
特征向量,构成矩阵V,其中,K=m,样本数;即V=[v1,v2,…,vK]∈R ,vi(i=1,2,…,K)是第i大特征值对应的特征向量,是列向量;
n×K
6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,…,n;j=1,…,K∈R ;
7)对矩阵U进行K‑means聚类,其中,K=m,将n个特征聚类为K个特征类簇;
8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集;
基于self‑tuning算法的特征谱聚类方法包括以下步骤:
1)式(6)定义了反映特征xi(i=1,2,…,n)局部信息的局部尺度参数σi,根据式(6)计算特征xi的局部尺度参数σi;
σi=d(xi,xp) (6)其中,特征xp是特征xi的第p个近邻,d(xi,xp)是特征xi到特征xp的欧氏距离;
n×n
2)式(7)定义表达特征间相似性的特征亲和矩阵A=(Aij)i,j=1,2,…,n∈R ;
其中,d(xi,xj)是特征xi,xj间的欧氏距离;
n×n
3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,…,n∈R ,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;
4)根据式(4)计算规范化拉普拉斯矩阵L;
5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K大特征值对应的K个n×K
特征向量,构成矩阵V,其中,K=m,即V=[v1,v2,…,vK]∈R ,vi(i=1,2,…,K)是第i大特征值对应的特征向量,是列向量;
n×K
6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,…,n;j=1,…,K∈R ;
7)对矩阵U进行K‑means聚类,其中,K=m将n个特征聚类为K个特征簇;
8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集;
所述基于特征局部标准差的特征谱聚类方法及所述基于self‑tuning算法的特征谱聚类方法中的步骤8)基于熵排序来度量特征重要性,从K个特征簇中,选择每个特征簇的最重要特征,构成包含K个特征的特征子集,实现特征选择,具体步骤如下:n×K
1)标准化后矩阵U=(Uij)i=1,…,n;j=1,…,K∈R ,其中Ui表示第i个特征,根据熵理论,特征矩阵U的熵定义为式(8);
其中,p(Ui)表示Ui的先验概率,由于特征的先验概率往往难以得到,计算中我们用相似度代替先验概率,因此,式(8)用式(9)代替;
其中,Sij表示特征Ui与Uj的相似度,定义为式(10);
其中,Distanceij表示特征Ui和Uj间距离,计算方法如式(11)所示;
其中,maxk和mink分别表示第k个样本在所有特征的最大值和最小值;
2)令式(12)E‑Us表示从特征集合U中去掉特征Us后的特征集合U‑{Us}的熵,则若说明删去特征Us将引起特征集合U更大的无序,因此,特征Us比Ut更重要,由此,将所有特征排序;
其中,U/Us=U‑{Us};
3)从所述基于特征局部标准差的特征谱聚类方法及所述基于self‑tuning算法的特征谱聚类方法中的步骤7)所得的K个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集;
所述基于特征局部标准差的特征谱聚类方法及所述基于self‑tuning算法的特征谱聚类方法中的步骤8)基于余弦相似性排序来度量特征重要性,对从K个特征类簇中,选择各特征簇中最重要的特征,即与该簇其他特征的余弦相似性之和最大的特征,作为本特征簇的代表特征,从而得到包含K个特征的特征子集,实现特征选择,具体步骤如下:n×K
1)标准化矩阵U=(Uij)i=1,…,n;j=1,…,K∈R ,其中Ui表示第i个特征,则,定义式(14)度量每个特征的重要性,即代表性,越重要的特征代表性越强;
其中,|Ui·Uj|表示特征Ui,Uj内积的绝对值,||Ui||×||Uj||表示特征Ui,Uj模的乘积,Ni表示特征Ui所在特征簇的特征个数;
2)根据式(14)得到每个特征的重要度值,对各特征类簇的特征按其重要度排序;
3)从所述基于特征局部标准差的特征谱聚类方法及所述基于self‑tuning算法的特征谱聚类方法的步骤7)所得的K个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集;
所述最优特征子集为基因微阵列数据和文本数据分析的结果,所述最优特征子集用于发现肿瘤的基因标志物。