欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017108683005
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:包括基于特征局部标准差的特征谱聚类方法和基于self-tuning算法的特征谱聚类方法;

设原始数据集为X={x1,x2,L,xn}∈Rm×n,xi(i=1,L,n)为列向量,是进行谱特征选择的原始特征列,m是样本数;

基于特征局部标准差的特征谱聚类方法包括以下步骤:

1)式(1)定义了反映特征xi(i=1,2,L,n)局部标准差的尺度参数定义σstd_i,根据式(1)计算新尺度参数σstd_i;

其中,特征xr是特征xi第r个最近邻,近邻度量依据为欧氏距离;

2)式(2)定义表达特征间相似性的亲和矩阵A=(Aij)i,j=1,2,L,n∈Rn×n;

其中,d(xi,xj)是特征xi,xj间的欧氏距离;

3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,L,n∈Rn×n,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;

4)根据式(4)计算规范化拉普拉斯矩阵L;

5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K(=m,样本数)大特征值对应的K个特征向量,构成矩阵V,即V=[v1,v2,L,vK]∈Rn×K,vi(i=1,2,L,K)是第i大特征值对应的特征向量,是列向量;

6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,L,n;j=1,L,K∈Rn×K;

7)对矩阵U进行K-means(K=m)聚类,将n个特征聚类为K个特征类簇;

8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集;

基于self-tuning算法的特征谱聚类方法包括以下步骤:

1)式(6)定义了反映特征xi(i=1,2,L,n)局部信息的局部尺度参数σi,根据式(6)计算特征xi的局部尺度参数σi;

σi=d(xi,xp)         (6)

其中,特征xp是特征xi的第p个近邻,d(xi,xp)是特征xi到特征xp的欧氏距离;

2)式(7)定义表达特征间相似性的特征亲和矩阵A=(Aij)i,j=1,2,L,n∈Rn×n;

其中,其中,d(xi,xj)是特征xi,xj间的欧氏距离;

3)根据式(3)构建特征度矩阵D=(Dij)i,j=1,2,L,n∈Rn×n,即只有主对角线元素的矩阵,第i个对角元素为特征亲和矩阵A第i行相应元素的和;

4)根据式(4)计算规范化拉普拉斯矩阵L;

5)求解规范化拉普拉斯矩阵L的特征值,并进行降序排序,选择前K(=m)大特征值对应n×K的K个特征向量,构成矩阵V,即V=[v1,v2,L,vK]∈R ,vi(i=1,2,L,K)是第i大特征值对应的特征向量,是列向量;

6)根据式(5)将矩阵V按行标准化,标准化后矩阵记为U=(Uij)i=1,L,n;j=1,L,K∈Rn×K;

7)对矩阵U进行K-means(K=m)聚类,将n个特征聚类为K个特征簇;

8)分别使用熵排序和余弦相似性排序来度量特征重要性,对特征进行排序,从每个特征类簇,选择该簇最重要的一个特征代表该类簇,得到由K个特征类簇的代表特征构成的特征子集。

2.根据权利要求1所述的基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:步骤8)基于熵排序来度量特征重要性,从K个特征簇中,选择每个特征簇的最重要特征,构成包含K个特征的特征子集,实现特征选择,具体步骤如下:n×K

1)特征谱聚类后的特征矩阵U=(Uij)i=1,L,n;j=1,L,K∈R ,其中Ui表示第i个特征,根据熵理论,特征矩阵U的熵定义为式(8);

其中,p(Ui)表示Ui的先验概率,由于特征的先验概率往往难以得到,计算中我们用相似度代替先验概率,因此,式(8)用式(9)代替;

其中,Sij表示特征Ui与Uj的相似度,定义为式(10);

其中,Distanceij表示特征Ui和Uj间距离,计算方法如式(11)所示;

其中,maxk和mink分别表示第k个样本在所有特征的最大值和最小值;

2)令式(12)E-Us表示从特征集合U中去掉特征Us后的特征集合U-{Us}的熵,则若说明删去特征Us将引起特征集合U更大的无序,因此,特征Us比Ut更重要,由此,将所有特征排序;

其中,U/Us=U-{Us};

3)从步骤7)所得的K个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集。

3.根据权利要求1所述的基于局部尺度参数、熵和余弦相似性的谱特征选择方法,其特征在于:步骤8)基于余弦相似性排序来度量特征重要性,对从K个特征类簇中,选择各特征簇中最重要的特征,即与该簇其他特征的余弦相似性之和最大的特征,作为本特征簇的代表特征,从而得到包含K个特征的特征子集,实现特征选择,具体步骤如下:

1)特征谱聚类后的特征矩阵U=(Uij)i=1,L,n;j=1,L,K∈Rn×K,其中Ui表示第i个特征,则,我们定义式(14)度量每个特征的重要性,即代表性,越重要的特征代表性越强;

其中,|UigUj|表示特征Ui,Uj内积的绝对值,||Ui||×||Uj||表示特征Ui,Uj模的乘积,Ni表示特征Ui所在特征簇的特征个数;

2)根据本部分步骤1)式(14)的定义,得到每个特征的重要度值,对各特征类簇的特征按其重要度排序;

3)从权利要求1(或2)的步骤7)所得的K(K=m)个特征类簇中,分别选择各特征类簇的最重要特征,构成特征子集,就得到要选择的最优特征子集。