1.基于时空光梯度增强机的地表O3浓度估算方法,包括以下步骤:步骤一,观测值预处理;步骤二,统一化处理;步骤三,单元网格建立;步骤四,数据整备清洗;步骤五,特征性选择;步骤六,生成估算模型;其特征在于:其中上述步骤一中,对地表O3观测值进行预处理,获取研究区0.1°×0.1°空间分辨率的日最大八小时滑动平均浓度[O3]MDA8;
其中上述步骤二中,获取卫星反演O3柱浓度数据、气象数据和辅助数据,随后对卫星反演O3柱浓度数据、气象数据和辅助数据进行预处理,将不同格式和不同时间分辨率的数据进行统一化处理,得到统一化数据;
其中上述步骤三中,创建研究范围网格,之后将步骤二中得到的统一化数据匹配到各单元网格中,随后获取网格中多个站点的O3测量值,然后分别取均值,得到测量平均值;
其中上述步骤四中,对步骤三中得到的测量平均值进行整合,整合后进行数据清洗,清洗后得到清洗后数据;
其中上述步骤五中,采用包裹式和嵌入式相交集的方式对清洗后数据的特征进行选择;对数据的特征进行选择的过程如下:S5‑1,采用Pearson相关系数来检验特征之间的相关性;
S5‑2,利用方差膨胀因子方法计算所选变量之间是否存在多重共线性;
S5‑3,根据VIF值对变量间的共线性进行判定;
S5‑4,使用包裹式和嵌入式相交集的方式来进行特征重要性计算,并根据计算结果选取数据特征;
其中上述步骤六中,根据步骤五中特性选择的结果,来构建时空‑LightGBM的机器学习模型,之后利用构建的模型对O3浓度进行估算;构建时空‑LightGBM的机器学习模型过程如下:S6‑1,从数据集N中提取Z个样本,建立有一个根节点的回归树;
S6‑2,对每个样本计算负梯度,并将每个样本的负梯度标记为对应样本的残差;
S6‑3,将样本的残差作为训练数据,通过最小化损失函数,从M维特征中选取最佳划分节点,划分样本得到新树对应的叶子节点区域,对树进行更新,得到梯度提升决策回归树;
S6‑4,重复S6‑2和S6‑3的过程直到误差小于预估最大误差,同时每棵梯度提升决策回归树,都满足以下条件:j j
其中(xi,yi)为样本集,i=1,2,…,N,x 为变量x的第j个特征,Rm(j,s)为切分变量x 和切分点s对应的区域, 为每个区域的最优值;
S6‑5,通过相邻像元和中心像元的距离、时间加权来对时空地理数据的提取;
S6‑6,根据S6‑4和S6‑5中的结果,建立O3浓度预测模型,之后使用建立的模型对地表O3的浓度进行估算;
所述S6‑5中,对时空地理数据的提取的特征提取方程为:Spacew=f(Lon,Lat)=haversine(α2‑α1)+cosα1cosα2haversine(β2‑β1) (4);
所述S6‑6中,建立的O3浓度预测模型为:
O3=f(OMI,ssrd,tp,rh,blh,sp,t2m,tcwv,u10,PM2.5,SO2,NO2,CO,Space,Time、LUCC、POP)其中,Spacew表示栅格中某像元到边界和中心的距离;Lon表示像元所在的经度;Lat表示像元所在的经度;Space和Time表示空间和时间特征;r代表地球半径;DOY(Day Of Year)表示当日在一年中属于第几天;Year代表该年的总天数。
2.根据权利要求1所述的基于时空光梯度增强机的地表O3浓度估算方法,其特征在于:所述步骤二中,气象数据包括温度数据、风速数据、降水数据和气压数据,辅助数据包括LUCC数据,人口数据和DEM数据。
3.根据权利要求1所述的基于时空光梯度增强机的地表O3浓度估算方法,其特征在于:所述步骤三中,获取多个站点O3测量值的均值过程如下:S3‑1,创建覆盖整个研究区的0.1°×0.1°格网数据,并将步骤二中得到的统一化数据匹配到各单元网格;
S3‑2,对落在一个格网中同一变量的多个数据求平均,以确保所有变量数据在空间和时间上的一致性,接着对于0.1°范围内的多个站点的O3测量值取均值,得到测量平均值。
4.根据权利要求1所述的基于时空光梯度增强机的地表O3浓度估算方法,其特征在于:所述S5‑3中,共线性的判定规则为:当VIF值<10时,判定变量间不存在共线性;当VIF值≥
10时,判定变量间存在共线性。