Research on PM 2.5Concentration Estimation Based on MAIAC AOD Spatiotemporal Supplement Data
Aerosol optical thickness is widely used in PM 2.5concentration estimation, due to the influence of extreme climate and satellite sensors, there are a large number of missing AOD data, this paper proposes the Prophet-LSTM + P-Bshade spatiotemporal compensation model to supplement the MAIAC AOD data, and uses the Catbooost model combined with AOD data and ERA5 meteorological data to estimate the PM 2.5concentration in the land area of China in 2020. The results show that: (1) The accuracy of the Prophet-LSTM + P-Bshade spatiotemporal compensation model is significantly better than that of the traditional compensation method, with R, MASE and MAE of 0.891, 0.275 and 0.183, respectively. (2) The Catboost model showed higher estimation accuracy than other commonly used machine learning models in PM 2.5 concentration estimation, with R, MASE and MAE of 0.93, 15.89 μg∙m − 3and 10.54 μg∙m − 3, respectively. (3) PM 2.5concentrations in China’s land areas in 2020 were significantly distributed on a seasonal scale, showing the seasonal distribution characteristics of winter > spring > autumn > summer. In terms of spatial distribution, PM 2.5concentrations were higher in the eastern region and higher in the Tarim Basin.
MAIAC AOD
PM2.5主要通过地面空气质量监测网站获取,由于我国监测网络运行较晚,自2013年才开始运行,且地面监测站点分布不均,在一定程度上影响了对PM2.5污染影响程度评估的能力
传统AOD补值方法包括克里金插值、泛克里金插值和反距离加权等
在PM2.5浓度估算的众多常用变量中,AOD与PM2.5浓度的相关性较强,但卫星遥感AOD数据存在大面积缺失,传统的AOD补值方法只顾及了该数据的空间相关性或者时空相关性,没有综合考虑两者的互相关关系,对补值结果会产生一定的影响,从而影响PM2.5浓度估算的精度。因此,本文提出一种新的AOD补值方法对MAIAC AOD进行补值,并将AOD补值结果结合ERA5气象再分析数据使用Catboost算法进行PM2.5浓度进行估算。
本研究使用数据包括MAIAC AOD数据、AERONET AOD数据、ERA5气象再分析数据和PM2.5站点数据。其详细信息及来源介绍如下。
AERONET AOD常作为卫星遥感AOD的验证数据,可以从全球布站的气溶胶特性地基观测网(
MAIAC AOD数据是550 nm波段处的数据,AERONET站点提供的AOD数据并不包括550 nm波段的AOD数据,因此,需要通过AERONET AOD 440 nm和675 nm两个波段的AOD插值出550 nm波段的AOD值
(2.1)
(2.2)
式中 和 为波长, 为波长 和 之间的波长指数, 、 和 分别对应波长为 、 和 时的AOD数据。
本次研究所用的ERA5再分析数据可以从欧洲中期天气预报中心(ECMWF)获取(
现有研究表明,温度、风速、边界层高度和相对湿度等气象数据与PM2.5有高相关性,作为预测PM2.5的辅助变量可以有效提高预测精度
ERA5气象再分析数据的风速(WS)变量可以由10 m风速u变量和10 m风速v分量计算得到。计算公式如下:
(2.3)
式中WS为最终使用的风速变量;u10为10 m风速u变量;v10为10 m风速v变量。
PM2.5的数据可以从中国环境监测总站的全国城市空气质量实时发布平台(
AOD数据是具有时空属性的时空数据,在进行AOD数据的补值时,需要同时兼顾时间和空间的影响。本文对MAIAC AOD数据分别使用Prophet-LSTM时序组合模型进行时间维度补值和P-Bshade模型进行空间维度补值,然后将两个维度的补值结果进行线性融合,最终得到顾及时空影响的AOD补值结果。总流程如
按下式将时间维和空间维补值结果进行线性融合。
式中,A表示空间维度权重;B表示时间维度权重; 表示最终补值结果; 表示空间维补值结果; 表示时间维补值结果。本文所用的时间维和空间维的插值方法中,涉及到计算空间或时间协方差的影响,顾及到时空平衡性,本文的A、B取值均为0.5。
Prophet是一种基于加法模型的时间序列数据预测,有具体的数学模型,能快速地进行时间预测,在建模过程中考虑了趋势线、季节性、周期性,以及外生变量等因素的影响,预测效果好,相对于传统时序模型有很大优势。Prophet对于异常值、丢失的数据具有健壮性,可以对杂乱的数据进行合理的预测
Prophet-LSTM时间序列补值组合模型由Prophet模型和LSTM模型两个部分组成,Prophet模型负责为LSTM模型提供完整的AOD时间序列,LSTM模型负责对AOD数据进行时间维度补值。具体模型构建如
Prophet-LSTM算法流程描述:
① 数据预处理:选择用Prophet补齐MAIAC AOD数据的时间序列,并用mask标记缺失值。对于数据中的缺失值,将其替换为NaN (Not a Number),以便在后续步骤中进行处理。同时,创建掩码来标记原始序列中的缺失值位置,将缺失值位置的掩码设置为1,非缺失值位置的掩码设置为0。
② 为了进行训练,将完整的序列按照长度为64的窗口进行循环拆分,并将每个窗口作为一个样本输入到模型中,保证模型可以对时间序列的不同部分进行学习和预测,同时也便于训练和批量处理。在拆分序列的过程中,只使用已有的数据作为输入,补齐的数据仅用于填充缺失部分,不参与损失函数的计算。这样可以确保模型在训练时只利用真实的数据进行学习,而不会受到补齐数据的影响。
③ 在LSTM模型中,为了提高模型表达能力,在LSTM网络中堆叠了4个LSTM层,每个LSTM层都具有相同的隐藏状态大小(hidden_size),以确保信息的传递和记忆能力。并且将LSTM中的普通卷积换成了CSPConv并添加空间通道注意力(Spatial Channel Attention),空间通道注意力是一种自适应地调整通道权重的方法,可以使模型更关注重要的特征通道。在CSPConv Block的最后一个残差块作为空间通道注意力模块,以增强模型的特征表达能力。
④ 为了避免过拟合问题,在每个LSTM层之间添加了一个Dropout层,Dropout层可以在训练过程中随机丢弃一部分神经元的输出,这样可以减轻网络对某些局部特征的依赖,减少过拟合风险。
⑤ 在计算损失函数时,使用带有掩码(mask)的损失函数,只计算非缺失部分的损失,对于每个时间切片,只计算掩码为0部分的损失。对于每个时间切片,根据掩码来选择是否计算该时间切片的损失。以预测序列与真实序列之间的均方差(Mean Squared Error, MSE)作为损失函数。使用带有掩码的损失函数时,只计算非缺失部分的预测值和真实值之间的方差。
⑥ 在训练阶段,通过反向传播和优化算法对模型进行训练,直到模型收敛并达到最佳性能。训练收敛后,使用构建的网络,为序列中缺失的部分预测其数值。对于连续缺失的情况,我们逐步迭代地预测序列的缺失部分,先预测第一个缺失值,然后将其用于下一个缺失值的预测,以此类推。
⑦ 模型在训练的时候同时训练正反方向的序列,避免序列头的缺失;对于中段缺失的部分,使用正反模型预测值的均值;对于头端的缺失,使用对侧方向的预测值。训练完成后,我们可以使用已经训练好的网络来预测序列中缺失部分的数值。对于连续缺失的情况,我们逐步迭代地预测序列的缺失部分,先预测第一个缺失值,然后将其用于下一个缺失值的预测,以此类推。
P-Bshade方法是在空间维度进行的插值方法,计算原理如下:
(3.1)
式中, 表示第i个空间周围采样数据的观测值; 表示第i个空间周围采样数据对缺失数据的空间贡献权重; 可以用下式计算求得:
(3.2)
式中,方程中间的矩阵为待求矩阵; 为拉格朗日系数。方程左边的矩阵中 为第i个空间附近采样点的时间序列与第 个空间附近采样点的时间序列的协方差, 为第i个空间附近采样点的时间序列与缺失数据点的时间序列的期望比。方程右边的矩阵中 为第i个空间周围采样点的时间序列与缺失数据点的时间序列的协方差,并满足 , 。
首先选取每天的MAIAC AOD缺失数据附近n个相关性最大的空间采样数据进行插值计算,采用相关系数R来说明相关性的强弱,对于一个AOD缺失序列,计算其附近空间点的AOD数据序列和缺失AOD数据点的数据序列的相关系数R,R越大则表示相关性越强,反之则越弱。之后在缺失点附近找到非空AOD序列且相关系数R最大的十组序列,构建拉格朗日方程组之后求解权重,最后得出缺失值。
Catboost模型
(3.3)
式中 为第k个样本的第i个样本特征, 为第j个样本的标签特征值, 为第k个样本前的第j个样本的第i个类别特征, 为随机序列中在第k个样本前的数据集,a通常为大于0的参数,p为先验项。
本文使用Catboost模型来建立MAIAC AOD-PM2.5之间的关系,并加入温度(TEMP)、风速(WS)、边界层高度(BLH)和相对湿度(RH)作为相关预测因子,与AOD一起建立模型对PM2.5浓度进行估算,模型建立流程如
AOD补值和PM2.5的浓度估算都采用平均绝对误差(MAE)、均方根误差(RMSE)和皮尔逊相关系数(R)作为评价指标来进行精度验证,AOD补值精度验证使用地面站点AERONET AOD数据与补值结果进行验证,PM2.5的估算精度验证使用PM2.5站点与估算结果进行验证。各评价指标计算见下式:
(3.4)
式中 和 分别是模型计算和站点监测的AOD值(PM2.5值),n是样本的个数, 为模型计算值和站点监测AOD值(PM2.5浓度)的协方差, 为模型计算结果的标准差, 为站点检测值的标准差。
据气象学标准定义的实际季节来定义季节:春季为3、4和5月,夏季为6、7和8月,秋季为9、10和11月,冬季为12月、次年的1月和2月。本文对2020年3月~2021年2月的MAIAC AOD进行时空补值并对PM2.5浓度进行估算。
本文所用的Prophet-LSTM + P-Bshade时空补值模型相对于常用的经典克里金模型和时空克里金模型有较高的拟合精度,R、MASE和MAE分别为0.891、0.275和0.183,经典克里金补值模型的R、MASE和MAE分别为0.751、0.518和0.337空克里金补值模型的R、MASE和MAE分别为0.834、0.521和0.341。从各模型补值的结果和站点监测值的收敛来看,本文提出的补值方法收敛性最好。经典克里金模型是基于数据空间相关性进行的补值方法,未考虑数据的时间相关性,因而模型补值结果较差,时空克里金模型是经典克里金模型在空间维度上的延伸,在补值时需要多个时间点的空间截面数据进行时空连续性插值,在进行大范围的补值研究时,计算量十分庞大,且AOD的补值中存在低估现象。本文提出的Prophet-LSTM + P-Bshade时空补值模型基于AOD数据的时空相关性对其进行了补值,且相对于对比模型来说有最好的补值效果。
将ERA5气象数据和经过Prophet-LSTM + P-Bshade补值后的AOD数据作为估算变量输入到Catboost模型中,即可得到PM2.5浓度的空间分布数据,
本文选择LightGBM等八种常用机器学习、随机森林方法与Catboost模型进行对比,通过
其中较为传统的Bagging模型和KNN模型相对来说拟合精度较差,LightGBM、XGBoost和Catboost模型是GBDT的三大主流模型,都是在GBDT算法框架下进行了改进。这三种模型在PM2.5浓度估算中都显示有较高的拟合精度。其中Catboost模型主要使用了Ordered Target Statistics方法将类别特征转化为数值特征、基于贪心策略的特征组合方法、使用Orcdered boostng避免梯度偏移问题和使用对称二叉树作为基模型,其拟合效果最好。
将补值后的AOD数据与ERA5气象数据输入Catboost模型中可以得到2020年3月至2021年2月的每日PM2.5浓度估算空间分布图,再按4.1节方法划分季节,按季节取均值可以得到PM2.5季均空间分布图,如
从季节分布上来看,2020年四个季节PM2.5浓度分布特征较为明显,整体呈现冬季(51.37 μg∙m−3) > 春季(37.40 μg∙m−3) > 秋季(24.86 μg∙m−3) > 夏季(21.95 μg∙m−3)的季节分布特点。从空间分布上来看,我国陆地区域PM2.5浓度呈现东高西低的特点。东部地区经济发达,我国三大经济圈(环渤海经济圈、长江三角洲经济圈和珠江三角洲经济圈)主要城市基本都在中国东部,高速城市化、工业化带来经济发展的同时,城市生态环境空间被大量蚕食、大量的流动人口朝着经济发达的地方聚集,污染排放的强度和密度剧增,使得这些经济发达的地方成为大气环境污染的重灾区
(1) Prophet-LSTM + P-Bshade时空补值模型精度明显优于传统补值方法,R、MASE和MAE分别为0.891、0.275和0.183。
(2) Catboost模型在PM2.5浓度估算中相较于其他八个常用模型显示更高的估算精度,R、MASE和MAE分别为0.93、15.89 μg∙m−3和10.54 μg∙m−3。
(3) 中国陆地区域2020年的PM2.5浓度在季节尺度分布上明显,整体呈现冬季 > 春季 > 秋季 > 夏季的季节分布特点。在空间分布上,PM2.5浓度整体呈现东部地区较高,塔里木盆地区域局部较高的特点。
(4) 提出的Prophet-LSTM + P-Bshade时空补值模型在将AOD数据进行时间维和空间维补值结果线性融合时,本文顾及时空平稳性将两个维度的权重都取值为0.5,未来可以尝试其他的方法来设定时空维度权重,以此达到更好的补值效果。