1. 引言
空气质量是衡量城市生活环境质量的重要指标,对居民健康和生态平衡具有深远的影响。随着经济的高速发展,工业化的推进和城市化进程的加快,空气污染问题早已成为全球性热点,各国都在采取相应措施进行空气质量的改善。重庆,作为中国西南地区的经济中心,其独特的地理位置和气候条件为大气污染物的扩散带来了较大的挑战。近年来,虽然重庆市的空气质量有所改善,但依旧存在许多问题,一些污染指标仍然处于比较高的水平。
随着人们对空气质量的重视程度不断提高,国内众多研究者们时刻关注着空气质量问题,通过探讨各种方法对该问题进行了相关研究与分析,力争找到最优方案来改善大气环境。文献[1]选取2014~2022年AQI作为研究对象,通过探究了六大污染物、五个气象因子和14个经济变量对空气质量的影响,构建DT、RF、GBDT和XGBoost模型对AQI进行预测,结果表明:这四种模型都有较好的预测效果,且XGBoot和RF的预测效果最佳。文献[2]针对西北地区大气污染特征与影响因素,利用克里金插值和核密度等方法分析了AQI和六种污染物的时空变化特征,同时通过构建PSR模型和利用皮尔逊相关分析法分别探究了社会经济因素和气象因素对大气污染的影响。文献[3]通过探究空气质量影响因素进行描述性统计分析,利用TOPSIS法对2019~2021年重庆市的空气质量进行综合评价,并建立BP神经网络和随机森林模型对空气质量进行预测,根据结论提出相应的改善建议。文献[4]在重庆市大气污染物分布特征及影响因素分析中,基于四年的AQI和六大污染源,对六种污染物的月度、季度和年度的变化特征进行描述性统计分析,建立AQI和污染物的回归方程,分析主要污染物在各个分位点上的变化,指出PM2.5和臭氧是影响重庆市空气质量的主要原因。除了上述方法以外,还有一些学者提出一些模型与方法来对全国各地空气质量问题进行分析与预测,如Bootstrap方法[5]、深度学习[6] [7]、神经网络[8]-[10]等。
综上所述,空气质量研究是环境保护和人类健康的重要组成部分,对于实现可持续发展至关重要,通过科学研究,人们可以更好地理解和解决空气污染问题,为未来创造一个更清洁、更健康的环境。本文通过整理空气质量影响因素的相关文献,选取2023年7月至2024年6月这一年的空气质量数据,通过对空气质量指数和六种污染物数据的预处理和分析,构建多元线性回归模型,定量评估近一年内重庆市空气质量的主要污染物,并针对结论提出相应的建议。
2. 多元线性回归分析
多元回归分析是一种统计技术,用于研究两个或两个以上的解释变量与一个响应变量之间的关系,通过将一个变量确定为因变量,其余一个或多个变量作为自变量,在相关变量之间建立线性或非线性的数学模型关系,并利用样本数据进行分析,简要而言,就是拟合多个影响因素对一个变量的影响。
2.1. 多元线性回归模型
设因变量(响应变量)为Y,影响因变量的k个自变量(解释变量)为
,假设每一个自变量X对应因变量Y的影响是线性的,那就意味着只要其他自变量保持不变,Y的均值就会随着自变量
的变化而均匀变化,即:
(1)
其中,
为无任何影响因素下的空气质量指数,
是待确认的估计值(待估参数),把
称为回归参数,
为随机误差,代表模型未解释的部分,常假定
(2)
称
(3)
为理论回归模型。
对于一个实际问题,若获得n组观测数据
,则线性回归模型数学形式可表示为:
(4)
写成矩阵形式,为
.(5)
2.2. 拟合优度检验
多元线性回归的拟合优度检验主要用于评估模型对观测数据的拟合程度,即模型解释了多少响应变量的变异。度量拟合优度的统计量通常选用可决系数
和调整可决系数
,即
(6)
(7)
其中,
为残差平方和,
为回归平方和,
为总离差平方和,且SST = SSE + SSR,n为样本数,k为解释变量个数。
可决系数等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比。
越大,说明多元线性回归模型的拟合效果越好,且
的最优值为1,通常的取值范围为[0, 1],
越靠近1,表明模型中的自变量对因变量的解释能力越强,模型拟合得也就越好,
越靠近0,表明模型拟合得越差,一般可决系数 < 0.4,可看作拟合效果不好。
除了可决系数和调整可决系数以外,还可使用其它统计量来对模型的拟合优度进行检验,如F检验和t检验,其中F检验主要用于检验整个回归模型的显著性,即所有变量作为一个整体是否对因变量有显著影响,t检验主要用于检验单个自变量是否对因变量有显著影响。
3. 重庆空气质量影响因素的实证分析
3.1. 指标选取与数据来源
大气污染产生的原因既有自然原因,也有人类原因,例如火山喷发、森林火灾、工业废气、焚烧废气和机动车废气等这些因素所排放的污染物。大气污染的主要来源是生活和生产用煤,其主要污染物是颗粒物和SO2,随着机动车辆地迅速增加,大气污染特征正在由烟煤型转变为汽车尾气型,NO2和CO呈现加重趋势,且随着近年来温度的逐渐回暖,臭氧污染潜在的危机也处于随时爆发的状态,因此,本文根据已有文献与相应分析,选取PM2.5、PM10、SO2、NO2、CO及O3作为大气污染的主要污染物[11]。衡量大气污染状况最直接的检测数据就是空气质量指数(AQI),它是一种用于量化大气污染状态的非线性无量纲指标,即AQI越大,等级就越高,表明大气环境的污染程度越高,对人类身体的伤害也就越大。空气质量指数大小与空气质量的等级如表1所示。
Table 1. Comparison of air quality index and air quality class
表1. 空气质量指数与空气质量等级对照表
空气质量指数 |
0~50 |
51~100 |
101~150 |
151~200 |
201~300 |
>300 |
空气质量等级 |
优 |
良 |
轻度污染 |
中度污染 |
重度污染 |
严重污染 |
AQI级别 |
一级 |
二级 |
三级 |
四级 |
五级 |
六级 |
因此,根据《环境空气质量标准》,本文通过重庆空气质量在线检测分析平台收集整理了2023年7月1日至2024年6月30日这最近一年的重庆市每日空气质量指数(AQI)和大气污染物浓度数据,其中大气污染物主要包含细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)及臭氧(O3)这六大污染物,共有365条数据,相应的指标信息展示在表2中。
Table 2. AQI and top 6 pollutants meaning and units
表2. AQI和6大污染物含义及单位
变量 |
指标 |
指标含义与单位 |
X1 |
PM2.5 |
日平均浓度(μg/m3) |
X2 |
PM10 |
日平均浓度(μg/m3) |
X3 |
SO2 |
日平均浓度(μg/m3) |
X4 |
CO |
日平均浓度(mg/m3) |
X5 |
NO2 |
日平均浓度(μg/m3) |
X6 |
O3 |
日平均浓度(μg/m3) |
Y |
AQI |
日平均值 |
3.2. 数据预处理
由于本文所用到的数据均来自重庆空气质量在线检测分析平台,里面存在缺失值以及量纲不统一的情况,需先对其进行预处理之后才能进行后续的统计分析。因此,本文针对缺失数据采用均值替换的方式,通过往年该月的污染物月平均浓度来对缺失数据进行填充,针对自变量量纲不统一的情况,本文采用数据标准化的方式进行处理。数据标准化的处理方式有多种,如Z-Score标准化、最大最小值标准化以及归一化标准化等,本文采用的是Z-Score标准化,其表达式如下:
(8)
其中
代表第i个自变量的均值,
代表对应的方差。
3.3. 模型的建立
基于以上研究,本文以2023年7月至2024年6月12个月365天重庆空气质量日数据作为样本,运用SPSS软件对样本数据进行分析,初步建立模型,其中PM2.5、PM10、SO2、NO2、CO及O3作为自变量,AQI作为因变量,建立多元线性回归方程:
(9)
式中,
为无任何影响因素下的空气质量指数,
是待确认的估计值(待估参数),
为随机扰动项,
分别表示标准化后第t时刻PM2.5、PM10、SO2、CO、NO2及O3的浓度数据。
3.4. 软件实现结果分析
据表3的数据结果显示,可决系数R2为0.887,调整后的可决系数为0.885,表明解释变量能够解释被解释变量88.5%的变异程度,进而说明模型的拟合效果好。
Table 3. Descriptive statistics
表3. 描述性统计
模型 |
R |
R方 |
调整后R方 |
标准估算的错误 |
1 |
0.942 |
0.887 |
0.885 |
9.706 |
Table 4. Analysis of variance
表4. 方差分析表
模型 |
平方和 |
自由度 |
均方 |
F |
显著性 |
回归 |
265342.222 |
6 |
44223.704 |
469.429 |
<0.001 |
残差 |
33820.489 |
359 |
94.207 |
— |
— |
总计 |
299162.710 |
365 |
— |
— |
— |
表4展示了模型整体的显著性检验结果。据分析显示,检验统计量F为469.429,显著性(P值)小于0.001,则拒绝原假设,说明该模型在显著性检验中获得通过,即至少存在PM2.5、PM10、SO2、CO、NO2及O3中的一个因素对空气质量有显著影响,拟合效果有效。
表5展示了模型参数的显著性检验,从中可看出,
和
的P值均大于0.05,没有通过显著性检验,说明该变量对对空气质量指数AQI的影响不显著,可将其剔除,且X1与X2的方差扩大因子大于10,意味着回归模型中存在多重共线性问题。因此,综合利用所有变量进行多元回归的效果将会受到影响,需对全模型进行优化或修正处理,为得到更优的回归方程,考虑采用逐步回归的方法。
Table 5. Least squares results for parameter estimations
表5. 最小二乘法对参数估计结果
模型 |
未标准化系数 |
t |
显著性 |
共线性诊断 |
B |
标准错误 |
容差 |
VIF |
(常量) |
63.880 |
0.507 |
125.910 |
<0.001 |
— |
— |
|
24.751 |
2.373 |
10.430 |
<0.001 |
0.046 |
21.817 |
|
1.212 |
2.189 |
0.554 |
0.580 |
0.054 |
18.558 |
|
−2.552 |
0.813 |
−3.140 |
0.002 |
0.391 |
2.559 |
|
3.522 |
0.971 |
3.627 |
<0.001 |
0.274 |
3.653 |
|
0.697 |
0.988 |
0.706 |
0.481 |
0.265 |
3.779 |
|
17.049 |
0.626 |
27.243 |
<0.001 |
0.659 |
1.517 |
在剔除不显著的变量后,可以得到经过逐步回归优化后的回归方程,剔除变量后的描述性分析和参数估计结果如表6、表7和表8所示。表6展示了优化后的可决系数,通过拟合模型的可决系数R2 = 0.887,调整后的可决系数仍为0.885可知,该优化模型的拟合程度较高,空气质量指数可以被这四种污染物数据很好地解释。通过表7可知,检验统计量F为705.891,显著性(P值)小于0.001,则拒绝原假设,说明该模型在显著性检验中获得通过。表8展示了优化后的参数估计结果,从中可看出,常量与所有变量均通过了显著性检验,且通过逐步回归之后不存在多重共线性问题,因此,该模型可用于最终的评判分析。
Table 6. Descriptive statistics after optimization
表6. 优化后的描述性统计
模型 |
R |
R方 |
调整后R方 |
标准估算的错误 |
1 |
0.942 |
0.887 |
0.885 |
9.692 |
Table 7. Optimized analysis of variance
表7. 优化后的方差分析表
模型 |
平方和 |
自由度 |
均方 |
F |
显著性 |
回归 |
265249.829 |
4 |
66312.457 |
705.891 |
<0.001 |
残差 |
33912.882 |
361 |
93.942 |
— |
— |
总计 |
299162.710 |
365 |
— |
— |
— |
Table 8. Optimized least squares results for parameter estimations
表8. 优化后的最小二乘法对参数估计结果
模型 |
未标准化系数 |
t |
显著性 |
共线性诊断 |
B |
标准错误 |
容差 |
VIF |
(常量) |
63.880 |
0.507 |
126.088 |
<0.001 |
— |
— |
|
26.226 |
0.922 |
28.434 |
<0.001 |
0.303 |
3.305 |
|
−2.159 |
0.702 |
−3.075 |
0.002 |
0.522 |
1.916 |
|
3.508 |
0.904 |
3.879 |
<0.001 |
0.315 |
3.178 |
|
16.972 |
0.601 |
28.234 |
<0.001 |
0.712 |
1.404 |
由表8可得出最终的影响重庆市空气质量的多元线性回归模型为
(10)
根据该模型可知:PM2.5、SO2、CO及O3是造成重庆市大气污染的主要原因,其中PM2.5的影响最为显著,其次是臭氧,最后是CO和SO2。
4. 结论与建议
4.1. 结论
本文以重庆2023年7月至2024年6月的空气质量日平均数据为研究样本,将空气质量指数AQI作为因变量,六项污染物(PM2.5, PM10, SO2, NO2, CO及O3)作为自变量,初步建立多元线性回归方程,发现PM2.5和PM10存在共线性问题,NO2对因变量AQI的影响不显著,因此使用逐步回归法,剔除不显著的变量后,将PM2.5、SO2、CO及O3作为自变量重新构建优化后的多元线性回归模型,结果表明:近一年内,PM2.5和臭氧对重庆市空气质量的影响最为显著,其次是CO和SO2。
4.2. 建议
鉴于上述分析结果与重庆市发展现状,为进一步改善重庆市空气质量问题提出一些相关建议:
从本文分析结果来看,PM2.5对空气质量的影响最为显著,因此,应加强工业污染治理,制定严格的排放标准和控制措施,限制工业排放,鼓励企业采用清洁能源和环保技术,减少煤炭和石油产品的消耗,并且可以在城市和工业区安装高效的空气净化装置,以捕获和去除PM2.5。
臭氧对空气质量的影响也较为显著,应采取有效措施去控制臭氧的产生与排放。由于地面臭氧是由氮氧化合物(NOx)和挥发性有机化合物(VOCs)在阳光作用下发生光化学反应形成的,因此可控制工业排放,特别是石油、化工和印刷等行业,鼓励使用低VOCs含量的原料和产品,推广电动汽车和混合动力汽车,减少机动车的NOx排放。
第三,CO和SO2也对空气质量有一定影响,因此可推广使用清洁燃料,如天然气和生物燃料,减少汽油和柴油车辆的一氧化碳排放,加强对燃煤电厂和工业锅炉的监管,实施脱硫技术,发展可再生能源,如风能、太阳能和水能,减少化石燃料的使用。