1.基于梯度提升决策树地表PM2.5浓度估算的方法,其特征在于所述基于梯度提升决策树地表PM2.5浓度估算的方法按照以下步骤进行:一、对地面观察的PM2.5浓度数据进行预处理,获取研究区内各个站点的日、月、年平均PM2.5观测浓度数据;
二、对遥感AOD产品数据进行处理,获得控制质量较好的AOD数据和扩大AOD数据的空间覆盖率,然后根据步骤一所获得的结果数据提取对应点的遥感AOD数据;
根据步骤一所获得的结果数据提取对应点的遥感AOD数据过程如下:a、利用遥感AOD产品数据的控制质量文件数据,根据控制质量说明,通过对原始AOD数据裁切,获得控制质量较好的AOD数据;
b、通过一般线性回归方法对每天不同源遥感数据的AOD数据进行拟合、弥补缺失区域以扩大空间覆盖率,线性回归拟合公式如下:τ星1=α×τ星2+β (1)τ星2=α×τ星1+β (2)公式中τ星1为Terra卫星的AOD,τ星2为Aqua卫星的AOD数据,α和β分别为线性回归方程的斜率和截距;
c、根据步骤一所获得的结果数据提取对应点的遥感AOD数据;
三、对气象数据和辅助数据预处理,不同格式和时间分辨率数据统一化处理,然后,根据步骤二所获得的数据结果提取对应点的气象、辅助数据;
四、根据步骤三结果数据进行整合,以确保所有数据在空间和时间上都一致,具体过程如下:d、创建覆盖整个研究区的格网数据,并与步骤三中合成的AOD数据相匹配;
e、对落在一个格网中同一变量的多个数据求平均,以确保所有变量数据在空间和时间上都与AOD数据一致;
五、根据步骤四结果对数据探索性分析,以消除多变量之间的共线性问题,从而避免信息重复,过程如下:f、利用方差膨胀因子方法计算所选变量之间的共线性关值;
g、根据VIF值大小判断是否存在共线性,当VIF值小于10时认为变量间不存在共线性问题;VIF值大于等于10存在明显共线性问题,共线性的变量只选择一个变量参与模型估算;
六、根据步骤五结果,利用梯度提升决策树方法构建PM2.5浓度估算模型,具体过程如下:h、从数据集N中提取Z个样本,此时为只有一个根节点的树;
i、对每个样本计算负梯度,即残差;
j、将残差作为训练数据,通过最小化损失函数,从M维特征中选取最佳划分节点,划分样本得到新树对应的叶子节点区域,更新树;
k、重复i和j过程直到损失函数最小L(y,ft(x))=L(y,ft-1(x)+ht(x)),即样本的损失尽量变得最小,式中L(y,ft(x))为本轮的损失函数,L(y,ft-1(x))为前一轮迭代得到的损失函数,ht(x)为回归树模型的弱学习器;
并且对于每棵梯度提升决策回归树,都有满足以下条件:其中(xi,yi)为样本集,i=1,2,…,N,xj为变量x的第j个特征,Rm(j,s)为切分变量xj和切分点s对应的区域, 为每个区域的最优值;
根据k中的结果,然后模型中加入时间和空间特征,最终的模型如下所示:PM2.5=f(变量,......变量,DOY,X,Y) (6)其中,DOY代表一年中的某一天,X为经度,Y为纬度。
2.根据权利要求1所述基于梯度提升决策树地表PM2.5浓度估算的方法,其特征在于步骤三所述气象数据为温度、降水或蒸散发。
3.根据权利要求1所述基于梯度提升决策树地表PM2.5浓度估算的方法,其特征在于步骤三所述辅助数据为DEM、NDVI或LUCC。