ojns Open Journal of Natural Science 2330-1724 2330-1732 beplay体育官网网页版等您来挑战! 10.12677/ojns.2024.125109 ojns-95803 Articles 数学与物理, 地球与环境, 信息通讯, 生命科学, 化学与材料 重庆市空气质量影响因素的实证分析
Empirical Analysis of Influential Factors of Air Quality in Chongqing Municipality
张力芝 1 2 重庆对外经贸学院数学与计算机学院,重庆 荣昌高新技术产业开发区发展促进中心,重庆 29 08 2024 12 05 998 1005 18 7 :2024 28 7 :2024 28 8 :2024 Copyright © 2024 beplay安卓登录 All rights reserved. 2024 This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ 随着工业化和城市化的快速发展,空气质量问题日益凸显,成为影响人们生活质量和社会可持续发展的重要因素,因此,研究空气质量的影响因素,对于改善空气质量、保护生态环境具有重要意义。本文旨在探讨影响重庆市空气质量的各个因素,选取重庆空气质量在线检测分析平台的相关数据,运用统计学方法进行预处理和深入分析,将PM 2.5、PM 10、SO 2、NO 2、CO及O 3作为自变量,空气质量指数作为因变量,构建多元线性回归模型,研究其因素对空气质量的影响,并识别重庆市近一年来空气质量的主要污染物,从而提出改善空气质量的针对性建议,为重庆市进行空气质量的改善提供科学依据和策略。
With the rapid development of industrialization and urbanization, air quality issues are becoming more and more prominent, and have become an important factor affecting people’s quality of life and the sustainable development of society. Therefore, it is of great significance to study the influencing factors of air quality in order to improve air quality and protect the ecological environment. The purpose of this paper is to discuss the various factors affecting air quality in Chongqing Municipality, and relevant data from the Chongqing Air Quality Online Detection and Analysis Platform have been selected. And this data was pre-processed and analyzed in depth using statistical methods. In this paper, the PM 2.5, PM 10, SO 2, NO 2, CO and O 3were used as independent variables, and the air quality index was used as the dependent variable to construct a multiple linear regression model to investigate the effects of their factors on air quality, and identify the main pollutants in the air quality of Chongqing Municipality in the past year, so as to put forward targeted recommendations to improve air quality, and provide a scientific basis and strategy for Chongqing Municipality to carry out air quality improvement.
空气质量,影响因素,多元线性回归分析
Air Quality
Influencing Factors Multiple Linear Regression Analysis
1. 引言

空气质量是衡量城市生活环境质量的重要指标,对居民健康和生态平衡具有深远的影响。随着经济的高速发展,工业化的推进和城市化进程的加快,空气污染问题早已成为全球性热点,各国都在采取相应措施进行空气质量的改善。重庆,作为中国西南地区的经济中心,其独特的地理位置和气候条件为大气污染物的扩散带来了较大的挑战。近年来,虽然重庆市的空气质量有所改善,但依旧存在许多问题,一些污染指标仍然处于比较高的水平。

随着人们对空气质量的重视程度不断提高,国内众多研究者们时刻关注着空气质量问题,通过探讨各种方法对该问题进行了相关研究与分析,力争找到最优方案来改善大气环境。文献 [1] 选取2014~2022年AQI作为研究对象,通过探究了六大污染物、五个气象因子和14个经济变量对空气质量的影响,构建DT、RF、GBDT和XGBoost模型对AQI进行预测,结果表明:这四种模型都有较好的预测效果,且XGBoot和RF的预测效果最佳。文献 [2] 针对西北地区大气污染特征与影响因素,利用克里金插值和核密度等方法分析了AQI和六种污染物的时空变化特征,同时通过构建PSR模型和利用皮尔逊相关分析法分别探究了社会经济因素和气象因素对大气污染的影响。文献 [3] 通过探究空气质量影响因素进行描述性统计分析,利用TOPSIS法对2019~2021年重庆市的空气质量进行综合评价,并建立BP神经网络和随机森林模型对空气质量进行预测,根据结论提出相应的改善建议。文献 [4] 在重庆市大气污染物分布特征及影响因素分析中,基于四年的AQI和六大污染源,对六种污染物的月度、季度和年度的变化特征进行描述性统计分析,建立AQI和污染物的回归方程,分析主要污染物在各个分位点上的变化,指出PM2.5和臭氧是影响重庆市空气质量的主要原因。除了上述方法以外,还有一些学者提出一些模型与方法来对全国各地空气质量问题进行分析与预测,如Bootstrap方法 [5] 、深度学习 [6] [7] 、神经网络 [8] - [10] 等。

综上所述,空气质量研究是环境保护和人类健康的重要组成部分,对于实现可持续发展至关重要,通过科学研究,人们可以更好地理解和解决空气污染问题,为未来创造一个更清洁、更健康的环境。本文通过整理空气质量影响因素的相关文献,选取2023年7月至2024年6月这一年的空气质量数据,通过对空气质量指数和六种污染物数据的预处理和分析,构建多元线性回归模型,定量评估近一年内重庆市空气质量的主要污染物,并针对结论提出相应的建议。

2. 多元线性回归分析

多元回归分析是一种统计技术,用于研究两个或两个以上的解释变量与一个响应变量之间的关系,通过将一个变量确定为因变量,其余一个或多个变量作为自变量,在相关变量之间建立线性或非线性的数学模型关系,并利用样本数据进行分析,简要而言,就是拟合多个影响因素对一个变量的影响。

2.1. 多元线性回归模型

设因变量(响应变量)为Y,影响因变量的k个自变量(解释变量)为 X 1 , X 2 , , X k ,假设每一个自变量X对应因变量Y的影响是线性的,那就意味着只要其他自变量保持不变,Y的均值就会随着自变量 X i 的变化而均匀变化,即:

Y = β 0 + β 1 X 1 + β 2 X 2 + + β k X k + μ (1)

其中, β 0 为无任何影响因素下的空气质量指数, β 1 , β 2 , , β k 是待确认的估计值(待估参数),把 β 0 , β 1 , β 2 , , β k 称为回归参数, μ 为随机误差,代表模型未解释的部分,常假定

{ E ( μ ) = 0 V a r ( μ ) = σ 2 (2)

E ( Y ) = β 0 + β 1 X 1 + β 2 X 2 + + β k X k (3)

为理论回归模型。

对于一个实际问题,若获得n组观测数据 ( X i 1 , X i 2 , , X i k ; Y i ) ( i = 1 , 2 , , n ) ,则线性回归模型数学形式可表示为:

{ Y 1 = β 0 + β 1 X 11 + β 2 X 21 + + β k X k 1 + μ 1 Y 2 = β 0 + β 1 X 12 + β 2 X 22 + + β k X k 2 + μ 2 Y n = β 0 + β 1 X 1 n + β 2 X 2 n + + β k X k n + μ n (4)

写成矩阵形式,为

Y = X β + μ .(5)

2.2. 拟合优度检验

多元线性回归的拟合优度检验主要用于评估模型对观测数据的拟合程度,即模型解释了多少响应变量的变异。度量拟合优度的统计量通常选用可决系数 R 2 和调整可决系数 R ¯ 2 ,即

R 2 = S S R S S T = 1 S S E S S T (6)

R ¯ 2 = 1 ( 1 R 2 ) ( n 1 ) n k 1 (7)

其中, S S E = i = 1 n ( y ^ i y i ) 2 为残差平方和, S S R = i = 1 n ( y ^ i y ¯ ) 2 为回归平方和, S S T = i = 1 n ( y i y ¯ ) 2 为总离差平方和,且SST = SSE + SSR,n为样本数,k为解释变量个数。

可决系数等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比。 R 2 越大,说明多元线性回归模型的拟合效果越好,且 R 2 的最优值为1,通常的取值范围为[0, 1], R 2 越靠近1,表明模型中的自变量对因变量的解释能力越强,模型拟合得也就越好, R 2 越靠近0,表明模型拟合得越差,一般可决系数 < 0.4,可看作拟合效果不好。

除了可决系数和调整可决系数以外,还可使用其它统计量来对模型的拟合优度进行检验,如F检验和t检验,其中F检验主要用于检验整个回归模型的显著性,即所有变量作为一个整体是否对因变量有显著影响,t检验主要用于检验单个自变量是否对因变量有显著影响。

3. 重庆空气质量影响因素的实证分析 3.1. 指标选取与数据来源

大气污染产生的原因既有自然原因,也有人类原因,例如火山喷发、森林火灾、工业废气、焚烧废气和机动车废气等这些因素所排放的污染物。大气污染的主要来源是生活和生产用煤,其主要污染物是颗粒物和SO2,随着机动车辆地迅速增加,大气污染特征正在由烟煤型转变为汽车尾气型,NO2和CO呈现加重趋势,且随着近年来温度的逐渐回暖,臭氧污染潜在的危机也处于随时爆发的状态,因此,本文根据已有文献与相应分析,选取PM2.5、PM10、SO2、NO2、CO及O3作为大气污染的主要污染物 [11] 。衡量大气污染状况最直接的检测数据就是空气质量指数(AQI),它是一种用于量化大气污染状态的非线性无量纲指标,即AQI越大,等级就越高,表明大气环境的污染程度越高,对人类身体的伤害也就越大。空气质量指数大小与空气质量的等级如 表1 所示。

<xref></xref>Table 1. Comparison of air quality index and air quality classTable 1. Comparison of air quality index and air quality class 表1. 空气质量指数与空气质量等级对照表
空气质量指数

0~50

51~100

101~150

151~200

201~300

>300

空气质量等级

轻度污染

中度污染

重度污染

严重污染

AQI级别

一级

二级

三级

四级

五级

六级

因此,根据《环境空气质量标准》,本文通过重庆空气质量在线检测分析平台收集整理了2023年7月1日至2024年6月30日这最近一年的重庆市每日空气质量指数(AQI)和大气污染物浓度数据,其中大气污染物主要包含细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)及臭氧(O3)这六大污染物,共有365条数据,相应的指标信息展示在 表2 中。

<xref></xref>Table 2. AQI and top 6 pollutants meaning and unitsTable 2. AQI and top 6 pollutants meaning and units 表2. AQI和6大污染物含义及单位
变量

指标

指标含义与单位

X1

PM2.5

日平均浓度(μg/m3)

X2

PM10

日平均浓度(μg/m3)

X3

SO2

日平均浓度(μg/m3)

X4

CO

日平均浓度(mg/m3)

X5

NO2

日平均浓度(μg/m3)

X6

O3

日平均浓度(μg/m3)

Y

AQI

日平均值

3.2. 数据预处理

由于本文所用到的数据均来自重庆空气质量在线检测分析平台,里面存在缺失值以及量纲不统一的情况,需先对其进行预处理之后才能进行后续的统计分析。因此,本文针对缺失数据采用均值替换的方式,通过往年该月的污染物月平均浓度来对缺失数据进行填充,针对自变量量纲不统一的情况,本文采用数据标准化的方式进行处理。数据标准化的处理方式有多种,如Z-Score标准化、最大最小值标准化以及归一化标准化等,本文采用的是Z-Score标准化,其表达式如下:

X i = X i X ¯ i δ i (8)

其中 X ¯ i 代表第i个自变量的均值, δ i 代表对应的方差。

3.3. 模型的建立

基于以上研究,本文以2023年7月至2024年6月12个月365天重庆空气质量日数据作为样本,运用SPSS软件对样本数据进行分析,初步建立模型,其中PM2.5、PM10、SO2、NO2、CO及O3作为自变量,AQI作为因变量,建立多元线性回归方程:

Y t = β 0 + β 1 X 1 t + β 2 X 2 t + β 3 X 3 t + β 4 X 4 t + β 5 X 5 t + β 6 X 6 t + μ t (9)

式中, β 0 为无任何影响因素下的空气质量指数, β 1 , β 2 , , β 6 是待确认的估计值(待估参数), μ t 为随机扰动项, X 1 t , X 2 t , , X 6 t 分别表示标准化后第t时刻PM2.5、PM10、SO2、CO、NO2及O3的浓度数据。

3.4. 软件实现结果分析

表3 的数据结果显示,可决系数R2为0.887,调整后的可决系数为0.885,表明解释变量能够解释被解释变量88.5%的变异程度,进而说明模型的拟合效果好。

<xref></xref>Table 3. Descriptive statisticsTable 3. Descriptive statistics 表3. 描述性统计
模型

R

R方

调整后R方

标准估算的错误

1

0.942

0.887

0.885

9.706

<xref></xref>Table 4. Analysis of varianceTable 4. Analysis of variance 表4. 方差分析表
模型

平方和

自由度

均方

F

显著性

回归

265342.222

6

44223.704

469.429

<0.001

残差

33820.489

359

94.207

总计

299162.710

365

表4 展示了模型整体的显著性检验结果。据分析显示,检验统计量F为469.429,显著性(P值)小于0.001,则拒绝原假设,说明该模型在显著性检验中获得通过,即至少存在PM2.5、PM10、SO2、CO、NO2及O3中的一个因素对空气质量有显著影响,拟合效果有效。

表5 展示了模型参数的显著性检验,从中可看出, X 2 X 5 的P值均大于0.05,没有通过显著性检验,说明该变量对对空气质量指数AQI的影响不显著,可将其剔除,且X1与X2的方差扩大因子大于10,意味着回归模型中存在多重共线性问题。因此,综合利用所有变量进行多元回归的效果将会受到影响,需对全模型进行优化或修正处理,为得到更优的回归方程,考虑采用逐步回归的方法。

<xref></xref>Table 5. Least squares results for parameter estimationsTable 5. Least squares results for parameter estimations 表5. 最小二乘法对参数估计结果
模型

未标准化系数

t

显著性

共线性诊断

B

标准错误

容差

VIF

(常量)

63.880

0.507

125.910

<0.001

X 1

24.751

2.373

10.430

<0.001

0.046

21.817

X 2

1.212

2.189

0.554

0.580

0.054

18.558

X 3

−2.552

0.813

−3.140

0.002

0.391

2.559

X 4

3.522

0.971

3.627

<0.001

0.274

3.653

X 5

0.697

0.988

0.706

0.481

0.265

3.779

X 6

17.049

0.626

27.243

<0.001

0.659

1.517

在剔除不显著的变量后,可以得到经过逐步回归优化后的回归方程,剔除变量后的描述性分析和参数估计结果如 表6 表7 表8 所示。 表6 展示了优化后的可决系数,通过拟合模型的可决系数R2= 0.887,调整后的可决系数仍为0.885可知,该优化模型的拟合程度较高,空气质量指数可以被这四种污染物数据很好地解释。通过 表7 可知,检验统计量F为705.891,显著性(P值)小于0.001,则拒绝原假设,说明该模型在显著性检验中获得通过。 表8 展示了优化后的参数估计结果,从中可看出,常量与所有变量均通过了显著性检验,且通过逐步回归之后不存在多重共线性问题,因此,该模型可用于最终的评判分析。

<xref></xref>Table 6. Descriptive statistics after optimizationTable 6. Descriptive statistics after optimization 表6. 优化后的描述性统计
模型

R

R方

调整后R方

标准估算的错误

1

0.942

0.887

0.885

9.692

<xref></xref>Table 7. Optimized analysis of varianceTable 7. Optimized analysis of variance 表7. 优化后的方差分析表
模型

平方和

自由度

均方

F

显著性

回归

265249.829

4

66312.457

705.891

<0.001

残差

33912.882

361

93.942

总计

299162.710

365

<xref></xref>Table 8. Optimized least squares results for parameter estimationsTable 8. Optimized least squares results for parameter estimations 表8. 优化后的最小二乘法对参数估计结果
模型

未标准化系数

t

显著性

共线性诊断

B

标准错误

容差

VIF

(常量)

63.880

0.507

126.088

<0.001

X 1

26.226

0.922

28.434

<0.001

0.303

3.305

X 3

−2.159

0.702

−3.075

0.002

0.522

1.916

X 4

3.508

0.904

3.879

<0.001

0.315

3.178

X 6

16.972

0.601

28.234

<0.001

0.712

1.404

表8 可得出最终的影响重庆市空气质量的多元线性回归模型为

Y = 26.226 X 1 2.159 X 3 + 3.508 X 4 + 16.972 X 6 + 63.880 (10)

根据该模型可知:PM2.5、SO2、CO及O3是造成重庆市大气污染的主要原因,其中PM2.5的影响最为显著,其次是臭氧,最后是CO和SO2

4. 结论与建议 4.1. 结论

本文以重庆2023年7月至2024年6月的空气质量日平均数据为研究样本,将空气质量指数AQI作为因变量,六项污染物(PM2.5, PM10, SO2, NO2, CO及O3)作为自变量,初步建立多元线性回归方程,发现PM2.5和PM10存在共线性问题,NO2对因变量AQI的影响不显著,因此使用逐步回归法,剔除不显著的变量后,将PM2.5、SO2、CO及O3作为自变量重新构建优化后的多元线性回归模型,结果表明:近一年内,PM2.5和臭氧对重庆市空气质量的影响最为显著,其次是CO和SO2

4.2. 建议

鉴于上述分析结果与重庆市发展现状,为进一步改善重庆市空气质量问题提出一些相关建议:

第三,CO和SO2也对空气质量有一定影响,因此可推广使用清洁燃料,如天然气和生物燃料,减少汽油和柴油车辆的一氧化碳排放,加强对燃煤电厂和工业锅炉的监管,实施脱硫技术,发展可再生能源,如风能、太阳能和水能,减少化石燃料的使用。

References 李佳成, 梁龙跃. 基于机器学习方法的空气质量预测与影响因素识别[J]. 计算机技术与发展, 2024, 34(1): 164-170. 杨稳强. 西北地区大气污染特征及其影响因素分析[D]: [硕士学位论文]. 兰州: 西北师范大学, 2022. 曾玲. 重庆市空气质量的影响因素分析及预测[D]: [硕士学位论文]. 重庆: 重庆理工大学, 2022. 林静怡, 杨宜平. 重庆市大气污染物分布特征及影响因素分析[J]. 重庆工商大学学报(自然科学版), 2020, 37(5): 88-93. 李晓童, 夏明月, 林善冬. 基于Bootstrap方法对北京空气质量的回归分析[J]. 河北北方学院学报(自然科学版), 2014, 30(4): 31-34. 路凯丽, 杨露, 李涛. 基于集成深度学习模型的空气质量指数预测[J]. 南京信息工程大学学报, 2024, 16(1): 56-65. 姚玉婷. 基于深度学习的空气质量指数预测[D]: [硕士学位论文]. 淮安: 淮阴工学院, 2022. 诸鑫, 林孝先, 刘庆红, 等. 基于神经网络模型的绵阳市空气质量指数预测[J]. 绵阳师范学院学报, 2023, 42(8): 112-118. 李乾, 乔栋, 李博文, 等. 基于T-S模糊神经网络的空气质量预测模型分析研究[J]. 内蒙古煤炭经济, 2022(17): 142-144. 蒋洪迅, 田嘉, 孙彩虹. 面向PM_(2.5)预测的递归随机森林与多层神经网络集成模型[J]. 系统工程, 2020, 38(5): 14-24. 张方卉, 杨志远. 基于多元回归模型的空气质量影响因素实证分析[J]. 景德镇学院学报, 2018, 33(3): 7-9+45.
Baidu
map