Empirical Analysis of Influential Factors of Air Quality in Chongqing Municipality
With the rapid development of industrialization and urbanization, air quality issues are becoming more and more prominent, and have become an important factor affecting people’s quality of life and the sustainable development of society. Therefore, it is of great significance to study the influencing factors of air quality in order to improve air quality and protect the ecological environment. The purpose of this paper is to discuss the various factors affecting air quality in Chongqing Municipality, and relevant data from the Chongqing Air Quality Online Detection and Analysis Platform have been selected. And this data was pre-processed and analyzed in depth using statistical methods. In this paper, the PM 2.5, PM 10, SO 2, NO 2, CO and O 3were used as independent variables, and the air quality index was used as the dependent variable to construct a multiple linear regression model to investigate the effects of their factors on air quality, and identify the main pollutants in the air quality of Chongqing Municipality in the past year, so as to put forward targeted recommendations to improve air quality, and provide a scientific basis and strategy for Chongqing Municipality to carry out air quality improvement.
Air Quality
空气质量是衡量城市生活环境质量的重要指标,对居民健康和生态平衡具有深远的影响。随着经济的高速发展,工业化的推进和城市化进程的加快,空气污染问题早已成为全球性热点,各国都在采取相应措施进行空气质量的改善。重庆,作为中国西南地区的经济中心,其独特的地理位置和气候条件为大气污染物的扩散带来了较大的挑战。近年来,虽然重庆市的空气质量有所改善,但依旧存在许多问题,一些污染指标仍然处于比较高的水平。
随着人们对空气质量的重视程度不断提高,国内众多研究者们时刻关注着空气质量问题,通过探讨各种方法对该问题进行了相关研究与分析,力争找到最优方案来改善大气环境。文献
综上所述,空气质量研究是环境保护和人类健康的重要组成部分,对于实现可持续发展至关重要,通过科学研究,人们可以更好地理解和解决空气污染问题,为未来创造一个更清洁、更健康的环境。本文通过整理空气质量影响因素的相关文献,选取2023年7月至2024年6月这一年的空气质量数据,通过对空气质量指数和六种污染物数据的预处理和分析,构建多元线性回归模型,定量评估近一年内重庆市空气质量的主要污染物,并针对结论提出相应的建议。
多元回归分析是一种统计技术,用于研究两个或两个以上的解释变量与一个响应变量之间的关系,通过将一个变量确定为因变量,其余一个或多个变量作为自变量,在相关变量之间建立线性或非线性的数学模型关系,并利用样本数据进行分析,简要而言,就是拟合多个影响因素对一个变量的影响。
设因变量(响应变量)为Y,影响因变量的k个自变量(解释变量)为 ,假设每一个自变量X对应因变量Y的影响是线性的,那就意味着只要其他自变量保持不变,Y的均值就会随着自变量 的变化而均匀变化,即:
(1)
其中, 为无任何影响因素下的空气质量指数, 是待确认的估计值(待估参数),把 称为回归参数, 为随机误差,代表模型未解释的部分,常假定
(2)
称
(3)
为理论回归模型。
对于一个实际问题,若获得n组观测数据 ,则线性回归模型数学形式可表示为:
(4)
写成矩阵形式,为
.(5)
多元线性回归的拟合优度检验主要用于评估模型对观测数据的拟合程度,即模型解释了多少响应变量的变异。度量拟合优度的统计量通常选用可决系数 和调整可决系数 ,即
(6)
(7)
其中, 为残差平方和, 为回归平方和, 为总离差平方和,且SST = SSE + SSR,n为样本数,k为解释变量个数。
可决系数等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比。 越大,说明多元线性回归模型的拟合效果越好,且 的最优值为1,通常的取值范围为[0, 1], 越靠近1,表明模型中的自变量对因变量的解释能力越强,模型拟合得也就越好, 越靠近0,表明模型拟合得越差,一般可决系数 < 0.4,可看作拟合效果不好。
除了可决系数和调整可决系数以外,还可使用其它统计量来对模型的拟合优度进行检验,如F检验和t检验,其中F检验主要用于检验整个回归模型的显著性,即所有变量作为一个整体是否对因变量有显著影响,t检验主要用于检验单个自变量是否对因变量有显著影响。
大气污染产生的原因既有自然原因,也有人类原因,例如火山喷发、森林火灾、工业废气、焚烧废气和机动车废气等这些因素所排放的污染物。大气污染的主要来源是生活和生产用煤,其主要污染物是颗粒物和SO2,随着机动车辆地迅速增加,大气污染特征正在由烟煤型转变为汽车尾气型,NO2和CO呈现加重趋势,且随着近年来温度的逐渐回暖,臭氧污染潜在的危机也处于随时爆发的状态,因此,本文根据已有文献与相应分析,选取PM2.5、PM10、SO2、NO2、CO及O3作为大气污染的主要污染物
空气质量指数 | 0~50 | 51~100 | 101~150 | 151~200 | 201~300 | >300 |
空气质量等级 | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 |
AQI级别 | 一级 | 二级 | 三级 | 四级 | 五级 | 六级 |
因此,根据《环境空气质量标准》,本文通过重庆空气质量在线检测分析平台收集整理了2023年7月1日至2024年6月30日这最近一年的重庆市每日空气质量指数(AQI)和大气污染物浓度数据,其中大气污染物主要包含细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)及臭氧(O3)这六大污染物,共有365条数据,相应的指标信息展示在
变量 | 指标 | 指标含义与单位 |
X1 | PM2.5 | 日平均浓度(μg/m3) |
X2 | PM10 | 日平均浓度(μg/m3) |
X3 | SO2 | 日平均浓度(μg/m3) |
X4 | CO | 日平均浓度(mg/m3) |
X5 | NO2 | 日平均浓度(μg/m3) |
X6 | O3 | 日平均浓度(μg/m3) |
Y | AQI | 日平均值 |
由于本文所用到的数据均来自重庆空气质量在线检测分析平台,里面存在缺失值以及量纲不统一的情况,需先对其进行预处理之后才能进行后续的统计分析。因此,本文针对缺失数据采用均值替换的方式,通过往年该月的污染物月平均浓度来对缺失数据进行填充,针对自变量量纲不统一的情况,本文采用数据标准化的方式进行处理。数据标准化的处理方式有多种,如Z-Score标准化、最大最小值标准化以及归一化标准化等,本文采用的是Z-Score标准化,其表达式如下:
(8)
其中 代表第i个自变量的均值, 代表对应的方差。
基于以上研究,本文以2023年7月至2024年6月12个月365天重庆空气质量日数据作为样本,运用SPSS软件对样本数据进行分析,初步建立模型,其中PM2.5、PM10、SO2、NO2、CO及O3作为自变量,AQI作为因变量,建立多元线性回归方程:
(9)
式中, 为无任何影响因素下的空气质量指数, 是待确认的估计值(待估参数), 为随机扰动项, 分别表示标准化后第t时刻PM2.5、PM10、SO2、CO、NO2及O3的浓度数据。
据
模型 | R | R方 | 调整后R方 | 标准估算的错误 |
1 | 0.942 | 0.887 | 0.885 | 9.706 |
模型 | 平方和 | 自由度 | 均方 | F | 显著性 |
回归 | 265342.222 | 6 | 44223.704 | 469.429 | <0.001 |
残差 | 33820.489 | 359 | 94.207 | — | — |
总计 | 299162.710 | 365 | — | — | — |
模型 | 未标准化系数 | t | 显著性 | 共线性诊断 | ||
B | 标准错误 | 容差 | VIF | |||
(常量) | 63.880 | 0.507 | 125.910 | <0.001 | — | — |
24.751 | 2.373 | 10.430 | <0.001 | 0.046 | 21.817 | |
1.212 | 2.189 | 0.554 | 0.580 | 0.054 | 18.558 | |
−2.552 | 0.813 | −3.140 | 0.002 | 0.391 | 2.559 | |
3.522 | 0.971 | 3.627 | <0.001 | 0.274 | 3.653 | |
0.697 | 0.988 | 0.706 | 0.481 | 0.265 | 3.779 | |
17.049 | 0.626 | 27.243 | <0.001 | 0.659 | 1.517 |
在剔除不显著的变量后,可以得到经过逐步回归优化后的回归方程,剔除变量后的描述性分析和参数估计结果如
模型 | R | R方 | 调整后R方 | 标准估算的错误 |
1 | 0.942 | 0.887 | 0.885 | 9.692 |
模型 | 平方和 | 自由度 | 均方 | F | 显著性 |
回归 | 265249.829 | 4 | 66312.457 | 705.891 | <0.001 |
残差 | 33912.882 | 361 | 93.942 | — | — |
总计 | 299162.710 | 365 | — | — | — |
模型 | 未标准化系数 | t | 显著性 | 共线性诊断 | ||
B | 标准错误 | 容差 | VIF | |||
(常量) | 63.880 | 0.507 | 126.088 | <0.001 | — | — |
26.226 | 0.922 | 28.434 | <0.001 | 0.303 | 3.305 | |
−2.159 | 0.702 | −3.075 | 0.002 | 0.522 | 1.916 | |
3.508 | 0.904 | 3.879 | <0.001 | 0.315 | 3.178 | |
16.972 | 0.601 | 28.234 | <0.001 | 0.712 | 1.404 |
由
(10)
根据该模型可知:PM2.5、SO2、CO及O3是造成重庆市大气污染的主要原因,其中PM2.5的影响最为显著,其次是臭氧,最后是CO和SO2。
本文以重庆2023年7月至2024年6月的空气质量日平均数据为研究样本,将空气质量指数AQI作为因变量,六项污染物(PM2.5, PM10, SO2, NO2, CO及O3)作为自变量,初步建立多元线性回归方程,发现PM2.5和PM10存在共线性问题,NO2对因变量AQI的影响不显著,因此使用逐步回归法,剔除不显著的变量后,将PM2.5、SO2、CO及O3作为自变量重新构建优化后的多元线性回归模型,结果表明:近一年内,PM2.5和臭氧对重庆市空气质量的影响最为显著,其次是CO和SO2。
鉴于上述分析结果与重庆市发展现状,为进一步改善重庆市空气质量问题提出一些相关建议:
第三,CO和SO2也对空气质量有一定影响,因此可推广使用清洁燃料,如天然气和生物燃料,减少汽油和柴油车辆的一氧化碳排放,加强对燃煤电厂和工业锅炉的监管,实施脱硫技术,发展可再生能源,如风能、太阳能和水能,减少化石燃料的使用。