1.一种基于局部特征选择的卫星影像数据聚类方法,其特征在于,包括:S101,获取待处理的卫星影像数据集 其中,所述卫星影像数据集含有N条卫星影像数据,每条卫星影像数据用L2范数归一化为D维的数据特征向量: ||·||为L2范数的计算;
S102,使用基于局部特征选择的非参数VM混合模型对卫星影像数据进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数VM混合模型的模型参数并计算特征重要度;
S104,根据估算的所述模型参数,判断所述非参数VM混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据特征的重要度对卫星影像数据进行筛选以保留重要的卫星影像数据;
S106,根据指示因子的后验概率判断每条卫星影像数据的所属类别,从而根据所属类别对所述卫星影像数据进行聚类;其中,所述使用基于局部特征选择的非参数VM混合模型对卫星影像数据进行建模具体包括:对服从VM概率分布pvm(·)的卫星影像数据的特征,其D维数据 的概率密度函数表示为:其中, ynd1=xnd,ynd2在式中是为了确保向量 满足L2范数归一化,为位置参数, 为刻度参数并满足条件λd≥0,I0(λ)为修正的第一类0阶Bessel函数;
对于每条服从非参数VM混合模型的D维卫星影像数据 获取其概率密度函数表达式:其中,该非参数VM混合模型由无穷多个混合组件组成,每个混合组件对应D个VM概率分布的乘积: 其中每个特征对应一个VM概率分布; 是第k个混合组件中第d个特征的VM分布参数,而πk>0为相应的混合系数,并满足条件为每个卫星影像数据 指定一个二元隐变量 做为指示因子:当Znk=1时,表明卫星影像数据 属于第k个类别;否则,Znk=0;隐变量 的概率分布为将局部特征选择技术与非参数VM混合模型进行融合,得到每个卫星影像数据的特征xnd服从的概率分布:其中,参数φnkd为二元参数,当φnkd=1时,表示特征xnd为相关特征且服从VM概率分布当φnkd=0时,表示特征xnd为不相关特征且服从VM概率分布参数 服从Bernoulli分布:
其中,参数εkd表示第k个组件中的第d个特征的特征重要度;
采用VM‑Gamma分布作为相关特征所属的VM分布的参数 的联合先验分布:其中 pg(·)为Gamma分布;
采用VM‑Gamma分布作为不相关特征所属的VM分布的参数 的联合先验分布:获取基于局部特征选择的非参数VM混合模型的全概率表达式:
2.根据权利要求1所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,非参数VM混合模型采用基于Stick‑Breaking表示方法的Pitman‑Yor过程模型构建而成;在基于Stick‑Breaking表示方法的Pitman‑Yor过程模型中,混合系数πk的表示如下:服从Beta分布,表达形式如下
其中pb(·)为Beta分布,a为Pitman‑Yor过程模型中的折扣参数并满足条件0≤a≤1,b为密度参数满足条件b>‑a。
3.根据权利要求2所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,所述通过变分贝叶斯推断算法估算所述非参数VM混合模型的模型参数并计算特征重要度,具体包括:初始化模型参数;其中,包括初始化截断层数K=15;初始化超参数ukd=0.1,u′kd=0.1,vkd=0.01,v′kd=0.01,βkd>0,β′kd>0, ak=0.5,bk=0.5使用K‑Means算法初始化rnk;初始化利用当前的模型参数更新变分后验、期望值以及特征重要度;
根据更新的期望值获取更新后的
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断非参数VM混合模型是否收敛。
4.根据权利要求3所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,利用当前的模型参数更新变分后验、期望值以及特征重要度,具体包括:定义变分下界为:
L(q)=
其中,<·>为期望值的计算, 为所有随机变量和隐藏变量的集合;q(Θ)为真实后验分布p(Θ|X)的近似分布,即变分后验;变分后验q(Θ)的表达式如下:使用截断技术把混合组件从无穷维度空间截断到K维空间:
π′K=1, 当k>K时πk=0
其中,K为截断层数,即类别的个数;K值初始化为任意值,将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
式中的超参数由下面的公式计算得出:
上面中的期望值由下面公式计算得出
计算特征重要度:
5.根据权利要求3所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VM混合模型是否收敛具体为:当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;所述预设阈值为0.0001若是,则判定所述非参数VM混合模型收敛;
若否,则判定所述非参数VM混合模型不收敛。
6.根据权利要求4所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,根据特征重要度对卫星影像数据进行筛选以保留重要的卫星影像数据具体为:判断所述特征重要度特征对卫星影像数据进行筛选,其中,特征重要度低于阈值被视为需要剔除的不相关特征,将其剔除掉;特征重要度大于等于阈值则被视为需要保留的相关特征。
7.根据权利要求1所述的基于局部特征选择的卫星影像数据聚类方法,其特征在于,根据指示因子的后验概率判断每条卫星影像数据的所属类别,从而根据所属类别对所述卫星影像数据进行聚类,具体为:获取指示因子的后验概率rnk,rnk表示第n个卫星影像数据 属于第k个类别的概率;
选取概率最大的类别作为卫星影像数据 的类别。
8.一种基于局部特征选择的卫星影像数据聚类装置,其特征在于,包括:数据集获取单元,获取待处理的卫星影像数据集 其中,所述卫星影像数据集含有N条卫星影像数据,每条卫星影像数据用L2范数归一化为D维的数据特征向量:||·||为L2范数的计算;
建模单元,使用基于局部特征选择的非参数VM混合模型对卫星影像数据进行建模;其中,具体用于:对服从VM概率分布pvm(·)的卫星影像数据的特征,其D维数据 的概率密度函数表示为:其中, ynd1=xnd,ynd2在式中是为了确保向量 满足L2范数归一化,为位置参数, 为刻度参数并满足条件λd≥0,I0(λ)为修正的第一类0阶Bessel函数;
对于每条服从非参数VM混合模型的D维卫星影像数据 获取其概率密度函数表达式:其中,该非参数VM混合模型由无穷多个混合组件组成,每个混合组件对应D个VM概率分布的乘积: 其中每个特征对应一个VM概率分布; 是第k个混合组件中第d个特征的VM分布参数,而πk>0为相应的混合系数,并满足条件为每个卫星影像数据 指定一个二元隐变量 做为指示因子:当Znk=1时,表明卫星影像数据 属于第k个类别;否则,Znk=0;隐变量 的概率分布为将局部特征选择技术与非参数VM混合模型进行融合,得到每个卫星影像数据的特征xnd服从的概率分布:其中,参数φnkd为二元参数,当φnkd=1时,表示特征xnd为相关特征且服从VM概率分布当φnkd=0时,表示特征xnd为不相关特征且服从VM概率分布参数 服从Bernoulli分布:
其中,参数εkd表示第k个组件中的第d个特征的特征重要度;
采用VM‑Gamma分布作为相关特征所属的VM分布的参数 的联合先验分布:其中 pg(·)为Gamma分布;
采用VM‑Gamma分布作为不相关特征所属的VM分布的参数 的联合先验分布:获取基于局部特征选择的非参数VM混合模型的全概率表达式:参数估算单元,通过变分贝叶斯推断算法估算所述非参数VM混合模型的模型参数并计算特征重要度;
收敛判断单元,根据估算的所述模型参数,判断所述非参数VM混合模型是否收敛;若否,则通知参数估算单元,若是,则通知筛选单元;
筛选单元,用于根据特征的重要度对卫星影像数据进行筛选以保留重要的卫星影像数据;
聚类单元,用于根据指示因子的后验概率判断每条卫星影像数据的所属类别,从而根据所属类别对所述卫星影像数据进行聚类。
9.一种基于非参数VMF混合模型的文本数据聚类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有待聚类的卫星影像数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的基于局部特征选择的卫星影像数据聚类方法。