1.一种基于计算机大数据的数据分类系统,其特征在于,所述数据分类系统包括云计算设施,所述分布式计算设施允许用户配置远程的、虚拟的计算系统和数据中心,并在这些远程的计算机系统和数据中心内执行各种类型的计算任务,所述云计算设施向用户提供映射到实际物理服务器、计算机、数据存储子系统和其它远程物理数据中心组件的虚拟系统和数据中心,在云计算环境中,数据被存储在类似于传统计算机系统中相对大的文件对象或块内,所述文件对象或块与唯一标识符相关联,所述数据对象或块,表示由云计算设施内提供的数据存储子系统提供的数据存储的基本单元,所述文件对象或块内包括相应的记录,所述记录由密钥或密钥值组成,密钥值的数据类型的指示以及键值,由此通过云合并分类操作对记录进行排序,所述对象或块包括kmax个数据记录,当在最下面一组块中的记录未被排序时,按递增或递减的键顺序排序,其中由云合并分类产生的记录的顺序由用于在云合并分类内部操作期间比较记录密钥对的关系算子的实现来定义,当键值在键值的合并-分类范围内时,键值可以直接从选项数据结构移动到当前输出块中,在选项数据结构之一中找到下一个最高的键值,以及从输入块之一中提取具有尚未存储在选项数据结构中的下一最高键值的记录;将每条数据记录看成是粒子,获得的kmax将用于生成控制变量,所述控制变量将用于确定每个粒子中的活动分类数量k,采用局部密度的识别方法获取kmax,通过找到具有高密度的代表的数据记录的数量,就可以得到用于分组数据的分类数量kmax,通过计算所有数据记录的密度为分类数据集选择核心对象,并根据密度将所有数据记录降序排列,密度最大的数据记录首先被拾取,它的近邻被形成一个原子团,在形成第一个原子簇之后,对剩余的簇重复这个过程,以找到其余的簇中心及其响应的邻居,从而得到原子簇的集合。
2.根据权利要求1所述的一种基于计算机大数据的数据分类系统,其特征在于,采用局部密度的识别方法获取kmax的步骤包括:设X是具有m个属性的n个分类数据记录的集合。每个数据记录可以用一组m个分类属性来描述,因此xi={xi1,xi2,…,xim}。分类数据密度定义如下:对象xj∈X定义为核心对象xi的最近邻居,其距离dij
采用分类紧密性(π)和模糊分离(sep)作为目标函数,这两个值的计算方法如下:
W=(Wji)为模糊隶属度矩阵,k=kmax,Z={z1,z2,…,zk}为簇中心集,α为权重因子,d(xi,zj)为对象i到簇j的距离,d(zj,zl)为簇j到l的距离。
3.根据权利要求2所述的一种基于计算机大数据的数据分类系统,其特征在于,采用局部密度的识别方法获取kmax的步骤还包括:步骤1:种群初始化,初始化过程将创建一个包含N个粒子的种群,群中的每个粒子在指定的范围内被随机初始化,粒子由两部分组成:控制变量和集群的分配,集群的分配是基于控制变量生成的隶属度函数,首先生成控制变量来确定有多少集群是活动的,在初始化过程中应该调整集群的活动数量h(p),以保证kmin≤h(p)≤kmax,其中kmin设置为2;
步骤2:设置迭代t=0,计算所有粒子的适应度函数,个体最佳位置(pbest)设置为当前位置:pbest={pbestC,pbestW}={C(p),W(p)};
步骤3:增加迭代计数器:t=t+1;
步骤4:从已排序的列表随机选择全局最佳位置(gbest):gbest={gbestC,gbestW};
步骤5:更新过程:每个粒子p包含控制变量和簇分配的新速度和新位置,首先更新控制变量的新速度和位置如下:其中w为惯量权重,Ct(p)和 分别为粒子p在迭代t时的位置和速度,c1和c2为正加速度常数,分别定义了学习系数和全局学习系数,r1和r2是均匀分布在区间[01]内的两个随机数,在更新过程中,粒子p中的控制变量C(p)及其速度VC(p)可能会因为其值大于1或小于0而需要调整,控制变量的新位置发生改变,会导致簇的活动数量发生变化。因此,集群的活动数量也更新如下:ht+1(p)=count(C(t+1)(p)|cj>0.5)
新的集群分配速度与新的活跃集群数量匹配,从而更新新的集群分配速度,还引入直觉模糊集(IFS)加入分类分配速度,以增加隶属度函数的灵活性,具体如下:对于每个粒子,更新速度以匹配新的活动簇数:
计算IFS的犹豫度:
γ为犹豫度控制参数;
用下列函数更新新速度:
基于簇分配的新速度更新簇分配的新位置,由于新的活动簇数量的不同, 的大小t t+1
可能会发生变化,无法与W (p)匹配。因此,W (p)的更新过程需要基于新的 进行调整,更新过程如下所示:b=size Wt(p);
如果a=b:
如果a<b:
Wt(p)=size_reduce(Wt(p)|a);
如果a>b:
t t
W(p)=size_increase(W(p)|a);
使用函数来调整先前分配集群的Wt(p)位置的大小,其中a和b分别为 和Wt(p)的大小,如果a<b,将把Wt(p)切成a大小,并进行归一化来保持所有隶属度值之间的关系,如果b<a,函数会在Wt(p)中加入更多的位置,得到大小a,并生成与大小相对应的新的模糊隶属度矩阵;
步骤6:合并新的粒子pt+1和当前的pbest并存储在nextPop_list中。nextpop_list是一个大小为2n的临时填充;
步骤7:在nextPop_list上应用非主导排序,以识别非主导解决方案并存储在nonDomPSO_list中;
步骤8:生成一组新的N个粒子,从nonDomPSO_list生成下一个种群。,从新的N个粒子更新下一次迭代的最优值。
步骤9:返回到步骤3,直到满足终止条件。
4.根据权利要求1-3任一项所述的一种基于计算机大数据的数据分类系统,其特征在于,对于每个属性1∈m,Dens(xi)=1/n,如果|{xj∈X|xil=xjl}|=|xi1=xj1|=1,相反地,Dens(xi)=1,如果||{xjj∈X|xil=xjl}|=nxi1=xj1|=n,因此分类对象的密度限制在1/n≤Dens(xi)≤1。
5.根据权利要求1-4任一项所述的一种基于计算机大数据的数据分类系统,其特征在于,将包含数据集的记录的块集划分为子集,每个子集被分配给云计算设施内的不同计算资源用于分类,当子集已经被分类时,它们被再次收集在一起成为一般部分分类的中间数据集,然后在计算资源之间重新划分和重新分配,以执行下一个云合并分类步骤,数据子集和重新收集排序后的数据子集的过程迭代地继续,直到每个子集中的密钥或密钥值被排序并且不与其它子集的密钥重叠。
6.根据权利要求3所述的一种基于计算机大数据的数据分类系统,其特征在于,所述计算机系统包含一个或多个中央处理单元(CPU),一个或多个电子存储器通过CPU/存储器子系统总线与CPU互连,第一桥接器互连CPU/存储器子系统总线的带有附加母线的以及或其它类型的高速互连介质,包括多个高速串行互连。这些总线或串行互连又将CPU和存储器与诸如图形处理器之类的专用处理器连接以及具有一个或多个附加桥与高速串行链路或多个控制器互连。
7.根据权利要求1所述的一种基于计算机大数据的数据分类系统,其特征在于,云合并分类将包含在一组块中的记录序列分类为包含在该组块中的顺序的,分类的记录组。记录在最上面一组数据块中当在最下面一组块中的记录未被排序时,按递增或递增的键顺序排序。云合并分类可用于以上升,下降或更复杂的顺序对记录进行分类,其中由云合并分类产生的记录的顺序由用于在云合并分类内部操作期间比较记录密钥对的关系算子的实现来定义。
8.根据权利要求3所述的一种基于计算机大数据的数据分类系统,其特征在于,云计算设施提供允许用户分配,启动和停止云内的虚拟服务器和系统以及在所分配的服务器和其它虚拟系统上启动特定计算任务的接口。
9.根据权利要求3所述的一种基于计算机大数据的数据分类系统,其特征在于,构成密钥的连续字节序列可以被不同地解释为符号串,整数,浮点数或任何其它这样的数据类型,或者可以构成包含具有相关联的值的多个不同字段的子记录。