1.一种基于聚类集成的转辙机故障识别方法,其特征在于,包括以下步骤:(一):转辙机功率数据预处理
由于天气情况、地理位置、启动时刻外界环境因素的影响,转辙机每次动作的时长不同,功率监测曲线在时间轴上存在错位,但相同故障类型下的功率曲线具有较高的相似度,基于该领域知识,将DTW动态时间归整算法引入转辙机功率曲线的相似度计算,使用DTW处理转辙机功率数据,完成原始功率数据的预处理;设时间序列 和Y的归整路径为,其中 ,其中, 为聚类数目,是归整路径上的第k个元素,表示 与 建立的匹配关系;归整路径从 开始,到结束,保证X、Y中的每个坐标都出现,且 和 必须为单调递增,即式(1)点对匹配关系中,点对基距离 的和的最小值就是DTW距离,此时相应的归整路径即最佳路径,DTW距离表示为式(2)构造一个m行n列的累积距离矩阵D,如式(3)所示,求得最佳路径下,两个时间序列的归整路径距离
(二):特征数据集与基聚类算法搭配生成基聚类成员为了集合各个聚类算法的优势,增强聚类集成的实用性,采用基于层次的凝聚式层次聚类和基于密度的DBSCAN、DPCA作为基聚类算法;
凝聚式层次聚类、DBSCAN和DPCA算法均是根据样本间的距离,即相似度进行聚类,因此,使用DTW算法对转辙机原始功率数据集进行预处理,能够计算转辙机功率曲线间的真实距离,无需额外降维步骤,得到3个基聚类成员;
(三):构建基于聚类集成算法的转辙机故障数据挖掘框架根据基聚类结果设计一种基于权重投票的W‑VOTE聚类集成方法;通过分析基聚类结果,得到每一个基聚类成员对特定某几类故障类型有较好的聚类效果,并且所有基聚类成员各自聚类效果较好的类簇,能够覆盖全部故障模式以及正常模式;据此,设计不同基聚类成员在集成投票中的权重,通过反馈循环,当损失函数值最小时,确定权重的最佳取值;
使用投票算法作为聚类集成方法的前提是所有基聚类成员的标签匹配,即代表同一类的标签相同;对于三种基聚类算法得到的3个基聚类成员,存在标签不匹配问题,需要完成对标签的转化;任取一个基聚类成员作为基准,计算其余基聚类成员得到的所有类与基准中的各个类之间重叠样本的数目,数目最大的两个类相互对应,将基聚类成员中的标签更改为基准标签,完成标签转化;
上述基于权重投票的W‑VOTE算法即投票算法具体步骤如下:输入:聚类数目 和基聚类成员标签矩阵 ;
第一步: 通过标签转化得到类别统一的标签矩阵 ;
第二步:初始化权重 的值;
第三步:通过加权投票得到此时的集成标签矩阵 ;
第四步:计算此时损失函数的值 ;
第五步:令 , ;
第六步:判断 是否在取值范围内;若是,则跳到第三步;若否,则向下执行第七步;
第七步:寻找 的最小值,提取对应的权重 ,以及对应的集成标签 ;
第八步:输出 ,完成W‑VOTE算法;
上述 、 的值通过损失函数确定,损失函数的表达式见式(4)其中,表示聚类效果最优时的准确率,即为1; 表示当权重取 时,投票算法集成基聚类成员得到的最终聚类集成结果准确率;通过反馈循环,当损失函数值最小时,为最佳取值,此时W‑VOTE算法能得到最佳集成结果。