1.一种基于网格快速搜寻密度峰值的数据聚类方法,其特征在于,依次包括以下步骤,步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集;
步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元;
步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标;
步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;
步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值dc,根据决策图确定聚类中心及其个数;
步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;
步骤7:假设边界点p的dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;
步骤8:计算类间相似度,合并两个满足类间相似条件的类;
步骤9:输出聚类结果。
2.根据权利要求1所述的基于网格快速搜寻密度峰值的数据聚类方法,其特征在于,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。