1.一种基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于,所述印染定型机能耗分类预测方法包括以下步骤:步骤1、采集印染订单、定型机生产的工艺参数、定型机生产的能耗数据表;
步骤2、对各数据表进行整理,使用去除唯一属性、处理缺失值、特征编码、数据合并方法进行数据预处理,得到预处理后的特征数据集;
所述数据预处理的处理过程为:
(2.1)对唯一属性的处理:唯一属性是id属性,这些属性并不能刻画样本自身的分布规律,所以删除这些属性即可;
(2.2)对缺失数据的处理:如果印染订单的特征数据60%以上缺失,即特征值为空,则将该订单记录删除;否则,将数值型的缺失特征值使用平均值填补;
(2.3)对类别数据进行特征编码:如果数据表中包含类别数据,则对该特征值数据进行编码,将特征值映射为类别编码;
(2.4)以印染定型机工艺参数表为基础进行数据合并,对每条数据样本的多个相似特征求平均值,以平均值代替多个相似特征,并将其他数据表中关联度较高的特征合并;
(2.5)对筛选出来的所有特征按订单号分组合并,得到预处理后的特征数据集;
步骤3、构建定型机综合能耗模型,使用定型机综合能耗模型产生定型机能耗类别的预测值,结合能耗类别对预处理后的特征数据集进行选择,得到训练特征数据集;
步骤4、使用梯度提升决策树分类预测模型对特征数据集进行训练,得到印染定型机能耗类别预测模型;
步骤5、生成待预测印染订单的特征数据,使用预测模型进行预测,得到定型机能耗类别。
2.根据权利要求1所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤1中,所述的印染订单、定型机生产的工艺参数、定型机生产的能耗数据表包括:印染订单数据、定型机的工艺参数、定型机的能耗数据;
其中印染订单数据包括订单的号、计划生产编号、计划生产日期、客户姓名、布料名称、颜色号、颜色代码、颜色名称、批号、米数和备注信息;定型机的工艺参数包括订单号、流程开始时间、流程结束时间、温度、湿度、压力、车速和转速信息;定型机的能耗数据包括订单号、用水量、燃气和耗电量信息。
3.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤3中,定型机综合能耗模型的构建过程为:①从印染样本数据中抽取能耗相关数据:耗电量E、燃气消耗量G、耗水量W以及订单量数据米数M;
②通过综合单位产量能耗公式 计算产品单位产量综合能耗,其中
Pq为企业综合能耗,单位为千克标煤;Ei为生产活动中消耗的第i类能源
实物量;Pi为第i类能源折算标煤系数,P产品单位产量综合能耗,单位为千克标煤每百米;
∑Ngh为各种合格品产量,单位为百米;
③即 得到单位产量能耗,用该数据代表综合能耗情况;
步骤3中,定型机能耗类别预测值产生的过程为:计算得到所有数据样本的单位产量能耗P,Pmax表示单位产量能耗的最大值,Pmin表示单位产量能耗的最小值,令ΔP=Pmax-Pmin,单位产量能耗大于 并且小于 的能耗类别用2表示,代表能耗适中;单位产量能耗大于 的能耗类别用4表示,表示能耗较高。
4.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤3中,预处理后的特征数据集选择过程为:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于5%的特征;
对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于5%的特征,两个变量的Pearson相关系数计算如下:所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
5.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤4中,定型机能耗类别预测模型的输入特征为:xi,p={Cname,Tgas,Tenv,Pgas,Uf,Ue,Tp,Sc,Savg,Tavg}i∈{order}其中,order为订单号,Cname表示布料名称,Tgas表示一号定型机燃气表温度、Tenv表示环境温度、Pgas表示一号定型机燃气表压力、Uf表示一号定型机前端湿度、Ue表示一号定型机尾端湿度、Tp表示流程耗时、Sc表示车速、Savg表示排风机平均转速、Tavg表示烘房平均温度;
步骤4中所述定型机能耗类别梯度提升决策树分类模型为:
其中,Ptypei为第i个订单的定型机能耗类别预测值,T为回归数的数量,J为叶子节点的数量,P表示定型机能耗类别预测模型,fp1,0(xi,p)为定型机能耗类别预测初始化的回归树,fp1,t(xi,p)t∈{1,T}代表定型机能耗类别预测模型第t棵回归树,j∈{1,J}代表第j个叶子节点,cp1,t,j代表定型机能耗类别预测模型第t棵回归树的第j个叶子节点的残差值,Rp,t,j为定型机能耗类别预测模型第t棵回归树的第j个叶子节点,I(xi,p∈Rp,t,j)即xi,p属于定型机能耗类别预测模型第t棵回归树的第j个叶子节点时等于1,否则为0;
将xi,pi∈{order}依次输入定型机能耗类别预测模型回归树t训练回归树模型以拟合cp1,t,j:最终将所有定型机能耗类别预测模型回归树模型以上述公式组合得到最终定型机能耗类别预测模型:其中Cp1,t,j为cp1,t,j训练后最佳的值。
6.根据权利要求1或2所述基于梯度提升决策树的印染定型机能耗分类预测方法,其特征在于:所述步骤5中,通过在印染订单数据表中查询与待预测印染订单的布料名称Cname相等的订单,取这些订单各个特征的平均值生成待预测印染订单的特征数据,包括一号定型机燃气表温度Tgas、一号定型机燃气表压力Pgas、一号定型机前端湿度Uf、一号定型机尾端湿度Ue、车速Sc、排风机平均转速Savg和烘房平均温度Tavg的特征值;环境温度Tenv则由天气预报预报的平均温度得到,流程耗时Tp根据生产量预估得到。