1.一种基于维度重排序降低平行坐标可视化视觉杂乱的方法,其特征在于,包括步骤1:输入数据集D={d1,d2,…,dm},其中,m为样本容量,di=(di,1,di,2,…,di,n),1≤i≤m,n为属性维数,属性集为A={A1,A2,…,An};若A中包含类别属性,则将其记为Aclass={C1,C2,…,Cl},class为类别属性所在的维度;若A中不包含类别属性则采用聚类方法获得样本类别属性并将其 记为Aclass ;各类 别样本集合记为l为类别的数量;
步骤2:计算样本在任意两个属性间的杂乱度Clutter(Ap,Aq),1≤p,q≤n,得到杂乱度矩阵Clutter;所述杂乱度为曲线间的交叉点数量;包括步骤2.1:根据不同类别样本代表曲线的交叉情况来进行计算,包括
选择类别Ck的样本在属性Ap上的均值点 上、下2σ点 作为此类样本在属性Ap上的代表点,上2σ点 下2σ点
其中 为此类别样本在属性Ap上的标准差;比例系数
分别表示代表点 在属性Ap上所指代的样本比
例,满足 其中,1≤k≤l;
将类别Ck样本在属性Ap上的代表点与属性Aq上的代表点两两组合,得到类别Ck的样本在这两个属性间的代表曲线,其曲线指代比例为代表点相应比例系数的乘积;判断不同类别样本相应组合的代表曲线的交叉情况,并根据其指代的数量,得到属性Ap和Aq间的近似交叉点数,根据代表曲线计算杂乱度的公式为:其中,曲线交叉判断函数Cross(*)为:
上述杂乱度计算公式中,多项式的系数表示对应的代表曲线相交时,其所占总交叉点数的比例;所有多项式的系数之和为1,表示当所有对应代表曲线均相交时,交点数量为两类样本的数量之积,此时等价于原样本曲线中,一类中的任意一条曲线与另一类中的曲线均相交;当代表曲线均不相交时,杂乱度为0,表示原样本曲线中不存在曲线交叉的现象;
步骤2.2:利用杂乱度计算得到任意两个属性轴Ap和Aq间的杂乱度,构造成杂乱度矩阵Clutter,满足当Ap≠Aq时,Clutter(Ap,Aq)=Clutter(Aq,Ap),当Ap=Aq时,Clutter(Ap,Aq)=0;
步骤3:依据杂乱度矩阵Clutter,计算使得杂乱度之和最小的属性轴排列方式;
步骤4:将平行坐标轴按照上述过程中得到的最优排列次序绘制出来,得到该数据集杂乱度最低的平行坐标可视化视图。