Evaluation Study and Empirical Analysis of Pollution Emissions in China—Based on Data from Major Cities in 31 Provinces (Municipalities and Autonomous Regions) in China
This study collects data related to pollution emission and environment of 31 major cities in each province of China in 2022, and the variables include 16 types of data, such as precipitation, average temperature, average relative humidity, sunshine hours, industrial wastewater COD emission (tons), industrial ammonia nitrogen emission, and so on. First of all, the data are briefly analyzed, and it can be known that the three cities of Chongqing, Chengdu and Harbin should have certain problems in pollution emission. Then the data were subjected to simple systematic clustering and K-Means clustering, and when the 31 cities were divided into four categories, the results obtained from both clustering methods were that Chongqing and Harbin were singled out in one category. In order to further study the evaluation of pollution emission treatment, data from 31 cities were analyzed using both principal component analysis and factor analysis. By comparing the strengths and weaknesses of these two methods, and considering the interpretation of the principal components and common factors, it is concluded that the results obtained using the factor analysis method are more favorable. Specifically, among the 31 major cities in China, Chongqing, Harbin, Shanghai, and Wuhan (ranked from one to four based on their composite scores in descending order) are found to have the biggest problems with pollution emission treatment. Finally, reasonable suggestions for improvement are provided.
Pollution Discharge Treatment
近年来,不少学者利用主成分分析法开展空气环境质量评价并取得了一系列成果。对于重庆地区,有学者利用层级阶梯评价法、气象要素相关分析和统计计算方法分析各类污染物的年月变化特点
文章符号象征意义如下
y | 空气质量优良天数比例(百分比) |
x1 | 降水量 |
x2 | 平均气温 |
x3 | 平均相对湿度 |
x4 | 日照时数 |
x5 | 工业废水COD排放量(吨) |
x6 | 工业氨氮排放量 |
x7 | 生活废水COD排放量 |
x8 | 生活氨氮排放量 |
x9 | 工业二氧化硫排放量 |
x10 | 工业氮氧化物排放量 |
x11 | 工业颗粒物排放量 |
x12 | 生活及其他二氧化硫排放量 |
x13 | 生活及其他氮氧化物排放量 |
x14 | 生活及其他颗粒物排放量 |
x15 | 一般工业固体废物综合利用量 |
本文收集了2022年中国各省主要城市的资源与环境的相关数据进行研究分析,数据来源于中国统计年鉴(中国经济社会大数据研究平台(cnki.net)),数据包括各主要城市北京、天津、石家庄、太原等31个城市地区,变量包括降水量、平均气温、平均相对湿度、日照时数、工业废水COD排放量(吨)、工业氨氮排放量等16类数据(均为2022年数据)。
本文的研究目的为通过对收集到的数据先进行简单的直观研究,然后使用聚类分析对变量进行分析,目的在于想看看31个城市之间有哪些城市是具有相关的环境特征,对其中的几类城市可以提出相似的改善意见,可以对评价研究有一点的便捷作用。评价方法选用主成分分析法、因子分析法同时进行分析,通过观察两种不同方法的评价结果,与现实情况相结合选用相对更好的评价方法,最终对评价结果提出改善意见。
这一部分将对收集到的数据进行直观分析展示,包括扇形星象图、箱线图。
再画出数据的箱线图如
从
系统聚类法:
本次系统聚类法使用离差平方和法(Ward),该方法的基本思想来自方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和较大。具体的做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,直到所有的样品归为一类为止。
设将n个样品分成k类 ,用Xit表示Gi中的第i个样品,nt为Gt中样品的个数, 是Gt的重心,则Gt的样品离差平方和为:
如果Gp和Gq合并为新类Gr,类内离差平方和分别为:
它们反映了各自类内样品的分散程度,如果Gp和Gq这两类相距较近,则合并后所增加的离差平方和 应较小;否则,应较大。于是定义Gp和Gq之间的平方距离为:
其中, ,可以证明类间距离的递增公式为:
K-Means聚类法:
K-Means算法的处理流程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个聚类中心的距离将它赋给最近的簇。然后重新计算每个簇的平均值作为聚类中心进行聚类。这个过程不断重复,直到准则函数收敛,如下所示,通常采用平方误差原则,其定义如下:
其中,E为数据中所有对象与相应聚类中心的均方差之和,p代表对象空间中的一个点,mi为类Ci的均值(p和mi均是多维的)。该式所示聚类标准旨在使所有获得的聚类有以下特点:各类本身尽可能紧凑,而各类之间尽可能分开。
主成分分析法:
主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异,亦即期望能将手中许多相关性高的变量转化成彼此互相独立的变量,能由其中选取较原始变量个数少的,能解释大部分资料变异的几个新变量,也就是所谓的主成分,而这几个主成分也就成为我们用来解释资料的综合性指标。
因子分析法:
因子分析法是从研究变量内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
可以把因子分析看成是主成分分析的推广,即可从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。因子分析可用于对变量或样品进行分类处理。根据因子的得分值,在因子轴所构成的空间中把变量或样品点画出来,达到形象直观的分类目的。
在该系统聚类过程中,采用欧式度量,选择Ward.D的方法,考虑到各个指标的度量单位不同,对数据进行了标准化。
从聚类图可以看到,无论分成三类还是四类,第一类和第二类的聚类结果是相同的,第一类结果中的城市都是相对比较繁华、经济环境发展较好,地理位置偏向内陆的城市,第二类城市多为中国的西北地区或者少数民主自治区,这一类地区工业和经济发展相对不发达,所以污染排放也相对少,空气质量应相对较好。最后,分成三类或四类的区别在于重庆和哈尔滨是否分在了同一类,观察重庆和哈尔滨的变量指标,可以看到,重庆的工业废水COD排放量、工业氨氮排放量、生活废水COD排放量等多个污染排放类指标的数值都可以算得上是处在31个主要城市中最高一层的,甚至有几个指标是其中的最高值,所以重庆在污染排放方面的情况堪忧,迫切需要进行改善。而哈尔滨的情况和重庆类似,生活及其他二氧化硫排放量、生活及其他氮氧化物排放量、生活及其他颗粒物排放量三个生活类污染排放指标在所有城市中是处在最高值的范围内的,根据这些特征,所以重庆和哈尔滨相似,在分成3类的时候被分成了同一类。从聚类结果可以看出,重庆和哈尔滨这两个城市的污染排放有些偏高,需要对这两个城市采取措施来控制污染排放量的措施。
使用系统聚类法和K-Means算法得到的聚类结果如
从K-Means聚类算法得到的结果可以看到,分成四类的时候与系统聚类算法相似,哈尔滨和重庆都被单独分成了一类,说明重庆和哈尔滨这两个城市的数据特征确实与其他城市有所不同,虽然其余两类的划分有所区别,但是我们结合数据表可以得到的结论是重庆和哈尔滨两座城市的确在污染排放方面存在问题,所以才会在分类的时候单独被分出一类。下面将对这31个主要城市的受污染情况进行评价分析。
首先计算主成分对象的方差贡献率和确定主成分个数,要使得方差累积贡献率不低于80%。经过计算(使用相关阵),可以得到
分类法 | 第一类 | 第二类 | 第三类 | 第四类 |
系统聚类法(分四类) | 北京、天津、石家庄、太原、沈阳、长春、上海、南京、杭州、合肥、福州、南昌、济南、郑州、武汉、长沙、广州、南宁、海口、成都、贵阳、昆明、西安 | 呼和浩特、拉萨、兰州、西宁、银川、乌鲁木齐 | 哈尔滨 | 重庆 |
K-Means聚类算法(分四类) | 北京、天津、石家庄、太原、呼和浩特、沈阳、长春、济南、昆明、拉萨、兰州、西宁、银川、乌鲁木齐 | 上海、南京、杭州、合肥、福州、南昌、郑州、武汉、长沙、广州、南宁、海口、成都、贵阳、西安 | 哈尔滨 | 重庆 |
主成分 | 方差 | 贡献率 | 累计贡献率 |
主成分1 | 5.343518 | 0.33396989 | 0.3339699 |
主成分2 | 3.471963 | 0.21699767 | 0.5509676 |
主成分3 | 2.424188 | 0.15151173 | 0.7024793 |
主成分4 | 1.434860 | 0.08967874 | 0.7921580 |
主成分5 | 1.231511 | 0.07696943 | 0.8691275 |
从
变量 | 主成分1 | 主成分2 | 主成分3 | 主成分4 | 主成分5 |
x1 | 0.18349 | −0.36445 | 0.15326 | 0.31445 | −0.13009 |
x2 | 0.19735 | −0.41088 | 0.05745 | 0.1424 | −0.08107 |
x3 | 0.26485 | −0.24967 | 0.31795 | 0.16415 | 0.01115 |
x4 | −0.27232 | 0.24005 | −0.23456 | 0.07974 | 0.00923 |
x5 | 0.35294 | −0.04724 | −0.07854 | 0.11022 | −0.14226 |
x6 | 0.37959 | 0.01539 | −0.09532 | 0.12224 | −0.00758 |
x7 | 0.30181 | −0.01393 | 0.18485 | −0.50545 | −0.01472 |
x8 | 0.26461 | −0.00592 | 0.10831 | −0.61201 | 0.09289 |
x9 | 0.24952 | 0.24802 | −0.26545 | 0.05234 | 0.34484 |
x10 | 0.34271 | 0.22717 | −0.2159 | 0.07126 | 0.06195 |
x11 | 0.31918 | 0.16544 | −0.27325 | 0.03937 | 0.15478 |
x12 | 0.09883 | 0.36982 | 0.38387 | 0.21368 | 0.051 |
x13 | 0.11126 | 0.35425 | 0.37513 | −0.01539 | −0.16533 |
x14 | 0.00669 | 0.36465 | 0.42348 | 0.22585 | −0.00255 |
x15 | 0.22062 | 0.13361 | −0.29813 | 0.20192 | −0.42388 |
y | 0.02939 | −0.14876 | 0.08891 | 0.20824 | 0.76865 |
从
主成分一主要由工业废水COD排放量、工业氨氮排放量、工业二氧化硫排放量、工业氮氧化物排放量、工业颗粒物排放量决定,这五个指标是总量指标,代表城市的工业排放物污染水平。
主成分二主要由生活及其他二氧化硫排放量、生活及其他氮氧化物排放量、生活及其他颗粒物排放量、降水量、平均气温决定,这五个指标可以表示为自然天气影响情况和生活空气类污染排放水平。
主成分三主要由工业二氧化硫排放量、工业氮氧化物排放量、工业颗粒物排放量、生活及其他二氧化硫排放量、生活及其他氮氧化物排放量、生活及其他颗粒物排放量、一般工业固体废物综合利用量七个指标决定,这七个指标可以表示为空气类污染物工业和生活总污染水平。
主成分四主要由生活废水COD排放量、生活氨氮排放量、降水量三个指标决定,这三个指标可以表示为生活类水污染水平和自然降水情况。
主成分五主要由一般工业固体废物综合利用量、空气质量优良天数比例(百分比)、工业二氧化硫排放量三个指标决定,这三个指标可以表示为空气污染改善措施生效情况。
16个指标最终可以用5个指标来代替,而综合指标的信息没有损失多少。最终利用线性加权的方法,以各主成分的贡献率为权数,计算各综合指标的综合得分并据此排名。
首先,在进行因子分析之前,需验证因子分析方法的可行性与科学性,本文使用Bartlett’s球体检验。
Bartlett’s球体检验的目的是检验相关矩阵是否是单位矩阵(Identity Matrix),单位矩阵是指主对角线为1,其余元素都是0的n阶方阵,显然单位矩阵变量间不相关。如果是单位矩阵,则认为因子模型不合适。检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05),表明原始变量之间越可能存在有意义的关系;如果显著性水平很大(如0.10以上),可能表明数据不适宜做因子分析。
对数据进行Bartlett球体检验,得到的检验p值为小于10−6,该值明显小于0.05的显著水平,表明变量之间有很大可能存在有意义的关系,适合用来做因子分析。如下
本文使用了基于主成分估计的因子分析法,并且采用方差最大正交旋转法(Varimax)进行正交旋转。
下
从
根据上述确定的公因子个数构造因子变量,计算出5个公因子的载荷如下
从
因子Factor2在降水量、平均气温、平均相对湿度、日照时数上的载荷都很大,可视为不可控的自然环境因子。
因子Factor3在生活及其他二氧化硫排放量、生活及其他氮氧化物排放量、生活及其他颗粒物排放量上的载荷都很大,可以认为Factor3为生活类空气污染物情况因子。
因子个数 | 方差 | 贡献率(%) | 累计贡献率(%) |
Factor1 | 4.058 | 25.365 | 25.365 |
Factor2 | 3.478 | 21.740 | 47.105 |
Factor3 | 2.854 | 17.835 | 64.940 |
Factor4 | 2.204 | 13.778 | 78.718 |
Factor5 | 1.311 | 8.195 | 86.913 |
因子Factor4在生活废水COD排放量、生活氨氮排放量上的载荷很大,因此可以认为Factor4为生活类水污染物排放情况因子。
因子Factor5在一般工业固体废物综合利用量、空气质量优良天数比例上的载荷很大,可以认为因子Factor5为污染物改善处理情况因子。
有了对五个公因子的合理解释,并结合各个主要城市在五个公因子上的得分和综合得分,就可以对中国各主要城市的污染物处理情况进行评价了。
最后,31个主要城市主成分和因子分析法综合得分排名如
变量 | Factor1 | Factor2 | Factor3 | Factor4 | Factor5 |
x1 | 0.003 | 0.9161 | −0.1201 | −0.0797 | 0.0258 |
x2 | 0.0381 | 0.8488 | −0.3306 | 0.0812 | 0.0402 |
x3 | 0.0652 | 0.8741 | 0.1728 | 0.2287 | 0.1574 |
x4 | −0.0885 | −0.7207 | −0.0243 | −0.4533 | −0.075 |
x5 | 0.637 | 0.5097 | 5.00E−04 | 0.1905 | −0.1698 |
x6 | 0.7601 | 0.433 | 0.0627 | 0.2074 | −0.0455 |
x7 | 0.2218 | 0.2664 | 0.1276 | 0.892 | −0.0697 |
x8 | 0.2159 | 0.0996 | 0.0055 | 0.9455 | 0.0123 |
x9 | 0.8676 | −0.2071 | 0.081 | 0.1074 | 0.2318 |
x10 | 0.9343 | 0.0241 | 0.1575 | 0.1729 | −0.0596 |
x11 | 0.9061 | 0.0053 | −0.0013 | 0.172 | 0.0396 |
x12 | 0.1595 | −0.0286 | 0.9596 | 0.0141 | 0.0749 |
x13 | 0.0884 | −0.0556 | 0.8784 | 0.2402 | −0.192 |
x14 | −0.0371 | −0.0929 | 0.9759 | −0.0783 | 0.0372 |
x15 | 0.6944 | 0.1012 | −0.0195 | −0.1566 | −0.5477 |
y | 0.0429 | 0.2023 | −0.0514 | −0.0712 | 0.9165 |
地区 | 主成分分析 | 因子分析 | ||
得分 | 综合排名 | 得分 | 综合排名 | |
北京 | −0.5529 | 23 | −0.3348 | 25 |
天津 | −0.1124 | 13 | −0.1897 | 20 |
石家庄 | 0.0139 | 11 | −0.1554 | 18 |
太原 | −0.6521 | 25 | −0.4635 | 29 |
呼和浩特 | −0.7323 | 28 | −0.4397 | 27 |
沈阳 | −0.3215 | 17 | −0.1765 | 19 |
长春 | 0.6784 | 5 | 0.1834 | 10 |
哈尔滨 | 2.4758 | 2 | 0.7009 | 2 |
上海 | 0.8061 | 4 | 0.4463 | 3 |
南京 | 0.3884 | 8 | 0.2022 | 8 |
杭州 | −0.1302 | 14 | 0.1408 | 11 |
合肥 | −0.4178 | 19 | −0.0986 | 17 |
福州 | 0.2474 | 9 | 0.3092 | 6 |
南昌 | −0.4567 | 21 | 0.0473 | 14 |
济南 | −0.0754 | 12 | −0.2291 | 21 |
郑州 | −0.7144 | 27 | −0.3135 | 24 |
武汉 | 0.9344 | 3 | 0.422 | 4 |
长沙 | −0.412 | 18 | −0.008 | 15 |
广州 | −0.3036 | 16 | 0.061 | 13 |
南宁 | −0.2391 | 15 | 0.1178 | 12 |
海口 | −0.9311 | 29 | −0.0728 | 16 |
重庆 | 4.1245 | 1 | 1.8027 | 1 |
成都 | 0.667 | 6 | 0.3634 | 5 |
贵阳 | 0.037 | 10 | 0.2135 | 7 |
昆明 | 0.4671 | 7 | 0.1889 | 9 |
拉萨 | −1.5756 | 31 | −0.7352 | 31 |
西安 | −0.4593 | 22 | −0.2371 | 22 |
兰州 | −0.6351 | 24 | −0.4372 | 26 |
西宁 | −0.4553 | 20 | −0.2878 | 23 |
银川 | −0.9924 | 30 | −0.5653 | 30 |
乌鲁木齐 | −0.671 | 26 | −0.4551 | 28 |
从
从最终综合因子得分和排名中,排名第一和第二的分别是重庆和哈尔滨,这个排名情况和用主成分分析法得到的排名情况是相同的,但是用因子分析法得到的第三名是上海,第四名才是武汉,而主成分分析法的第三名是武汉,第四名是上海。
使用主成分分析法和因子分析法最终得到的结果基本一致,但是考虑到根据因子分析法构造出来的5个公因子更能够清晰的解释和表达出来,对现实情况来说更具说服力和方便性,所以本文认为使用因子分析法得到的结果更优,采用因子分析法得到的31个中国主要城市综合得分和排名作为结果。在污染物处理情况评价分析中,排名第一和第二的城市分别是重庆和哈尔滨,排名第三和第四的城市分别是上海和武汉。可以认为重庆和哈尔滨两个城市在中国31个主要城市中的污染处理情况存在较大的问题,急需采取措施进行改善治理,接下来将结合现实情况进行分析和提出改善意见。
针对重庆市治理建议:
1) 加强工业企业排放管理:严格监管重点行业企业,确保其大气污染物排放符合标准。
2) 推进清洁能源使用:支持和鼓励企业和居民使用清洁能源,减少对高污染燃料的依赖,特别是在冬季取暖方面。
3) 实施大气污染治理方案:持续执行冬季大气污染治理方案,特别是关注散煤治理等措施,以提高冬季空气质量。
4) 应急预案完善:不断优化应急预案,确保在重污染天气情况下,及时采取有效措施,减少对空气质量的不利影响。
针对哈尔滨治理建议:
1) 加强工业排放监管:强化对工业企业排放的监管,确保其排放符合国家标准,降低对空气质量的不利影响。
2) 推进清洁能源使用:支持和鼓励清洁能源的使用,特别是在工业和供暖领域,减少对高污染能源的依赖。
3) 提高城市绿化覆盖率:加大城市绿化力度,增加植被覆盖,有助于吸收污染物,改善空气质量。
4) 完善大气污染治理方案:持续改进治理方案,注重细颗粒物(PM2.5)的控制,采取有力措施提高空气质量。