1. 引言
海洋是人类开发利用的重要领域之一,随着海水水质日益下降,海水污染日益严重,海洋水质监管和评价越来越受到关注。海水水质评价主要指对海洋环境的监测与评估,可以及时发现海洋环境中的污染物,保护生态系统和人类健康。此外,海水水质评价还可以指导沿海地区的规划和管理。
在水质评价中,针对海水质量的评价方法主要包括模糊聚类法、灰色聚类法、模糊综合评价法、支持向量机、BP神经网络和遗传算法等 [1] 。楼文高 [2] 率先使用人工神经网络模型评价海水水质,提出在各类海水等级指标上下限范围里生成随机分布的训练样本,解决了人工神经网络模型训练时样本太少以及没有检验样本等问题。李雪等 [3] 同样使用人工神经网络技术,通过海水水质等级这一典型样本的学习,得到连续、量化的水质评价结果,符合水质变化情况。刁美娜等 [4] 将模糊理论与人工神经网络相结合,利用神经网络调整FLS隶属函数的参数,使得神经网络过程不再是黑箱,改进神经网络模型可解释性差的缺点。徐勇等 [5] 认为海水水质各指标之间存在复杂的非线性关系,通过BP神经网络与单因子评价模型以及内梅罗指数法对比,得出BP神经网络能够兼顾最高值和平均值的影响,解决了单一污染物浓度过大导致的评价结果不准确问题。尽管许多海洋环境工作者证实了BP神经网络在水质评价中具有较高的可靠性和准确性,但其仍存在着易陷入局部极小值、算法收敛速度慢等问题。李海涛等分别使用粒子群算法 [6] 和头脑风暴算法 [7] 改进BP神经网络,与传统的BP神经网络相比,粒子群算法缩短了训练次数,从而达到了更高的精度,头脑风暴算法对神经网络的初始权值和阈值进行了优化,较好地克服了神经网络容易陷入局部极小的问题。Sun等 [8] 利用主成分分析对10个海水质量因子进行尺寸减小,从多个特征中提取六个主要成分,用作后续预测变量的输入变量,在预测精度和效率方面优于单一的支持向量机等模型。
神经网络实质上实现了一个从输入到输出的映射功能,通用近似定理(universal approximation theorem)指出 [9] ,如果神经网络具有足够多的隐藏神经元,搭建一个具有任意“挤压”性质的激活函数,如双曲正切激活函数以及一个线性输出层,则该神经网络能够以任意的精度近似任何从一个有限维度的空间映射到另一个有限维度空间的Borel可测函数。但网络结构的选择尚无完整的理论指导,一般只能由经验选定。网络结构的不同,将直接影响网络的逼近能力和泛化能力。同时,神经网络泛化能力与样本的典型性密切相关,通过插值方法生成的数据多样性不足,从而导致泛化能力不理想。
TOPSIS方法(逼近理想解距离法)常用于多指标评价 [10] [11] [12] [13] 。单一权重分配方法往往存在不足之处,熵权法通常假定各指标之间相互独立,这意味着它不能很好地处理指标之间的相关性,在实际问题中,很多指标是相关的。同样,CRITIC法在计算多指标对比强度时差异性不明显。因此为了兼顾指标之间的相关性和差异性,使权重分配更合理,考虑使用熵权法与CRITIC法相结合的组合赋权法。鉴于此,本文提出一种新的基于组合权重-TOPSIS的海水水质评价模型。首先分别采用熵权法、CRITIC法计算海水各评价指标的权重,然后根据最小鉴别信息原理对权重进行组合,最后结合TOPSIS方法对胶州湾采集的数据进行实例分析并与其它方法进行对比。
2. 组合权重
2.1. 熵权法
确立各指标的权重大小一直以来是各综合评价方法的重点,权重大小表明各指标在评价过程当中的重要程度和影响力大小。熵权法计算客观权重的步骤如下:
1) 指标归一化
假设有m个待评价对象,n个评价指标。建立决策矩阵X,矩阵X的每一行表示一个样本,每一列表示一个指标,共含有m行n列,决策矩阵如下:
(1)
为了避免不同指标之间数据值差距过大引起的误差,首先对决策矩阵X进行归一化处理得到Y:
(2)
其中第i个数据的第j个指标
。
2) 计算概率矩阵
对标准化后的每一个指标进行比重转换,第i个数据的第j个指标
所占比重的计算公式为:
(3)
3) 计算每个指标的信息熵
通过概率矩阵计算各指标熵值:
(4)
4) 计算熵权
最后第j个指标的最终权重为:
(5)
2.2. CRITIC赋权法
CRITIC赋权法的主要思想是利用对比强度和冲突性来体现评价对象各指标所蕴含信息量的大小。该方法的主要步骤如下:
1) 指标归一化
CRITIC指标归一化的方式与熵权法一致。
2) 计算指标差异性
CRITIC赋权法各指标差异性以标准差
来体现,即:
(6)
其中
为第j个指标的均值,
越大,表明该指标样本之间差距越大,所具有的信息量也就越多,理应分配更多权重。
3) 计算指标冲突性
CRITIC赋权法各指标冲突性
由相关系数得到,即:
(7)
其中
表示评价指标i和j之间的相关系数。
4) 计算信息量和权重
通过指标差异性
以及冲突性
计算第j个指标的信息量
如下所示:
(8)
越大,表明第j个指标所蕴含的信息量越大,其权重
如下所得:
(9)
2.3. 组合权重的确定
客观权重向量
和客观权重向量
可分别通过熵权法及CRITIC法获得,组合权重则由这两种权重共同构成,利用它们之间的互补性即可全面地体现评价过程中各指标的权重 [14] 。为了使指标的组合权重
尽可能地接近
和
,在不偏重其中任意一项的情况下,可以使用最小鉴别信息原理 [15] 来获得组合权重
,目标函数为:
(10)
求解此优化模型,得到组合权重如下所示:
(11)
组合权重向量为:
(12)
3. TOPSIS综合评价法
本文在模型上选取了多准则决策方法——逼近理想解距离法(TOPSIS),它的基本思想是借助于决策问题的“正理想解”和“负理想解”进行优选排序。该方法的基本步骤如下:
1) 将综合评价矩阵X进行正向化和标准化处理得到Y,对于正向指标,处理方法为:
(13)
对于逆向指标,处理方法为:
(14)
结合各指标权重
和
求取规范加权矩阵Z,如下所示:
(15)
2) 选取最优方案与最劣方案。根据各个指标的特征选取在已经规范化后的策矩阵Z中选取最优方案为:
(16)
选取最劣方案为:
(17)
3) 计算各个样本与最优方案与最差方案之间的接近程度:
利用欧氏距离来评估每个样本距离最优方案和最劣方案的接近程度。第i个样本与最优方案之间的欧氏距离表示为:
(18)
第i个样本与最劣方案之间的欧氏距离表示为:
(19)
4) 计算每个样本的综合评价结果。利用以下公式来计算第i个样本的综合评价结果:
(20)
4. 应用分析
和文献 [7] 相同,根据胶州湾东北部海域的实际情况,选择石油类、无机氮、活性磷酸盐以及COD等4种污染物作为海水水质评价的指标。海水水质评价等级标准依据《海水水质标准》 [16] ,如表1所示:
Table 1. Seawater quality standards
表1. 海水水质标准
注:无机氮、活性磷酸盐、COD、石油类含量单位均为mg/L。
由于本文所选海水指标均为负向指标,所以构造不含有任何污染物的水质样本为最优值,即该样本各指标值全为0。考虑到部分样本超过了最差水质等级劣5类的值,因而构造劣5类水质样本的2倍值为最劣值。最优值和最劣值的固定在一定程度上会降低发生次序反转的概率。最优值与最劣值设置如表2所示:
Table 2. Optimal and inferior values
表2. 最优值与最劣值
选取胶州湾东北部海域的12个监测站的实测数据 [7] ,如表3所示:
Table 3. Measured data from 12 monitoring stations
表3. 12个监测站的实测数据
将海水质量等级范围、实测数据及正理想解、负理想解形成海水质量综合评价矩阵如下:
对综合评价矩阵进行标准化处理,并采用组合权重组合赋权法求出各指标权重矩阵
,求得加权规范矩阵如下:
根据加权规范矩阵,得到各指标与正负理想的距离
、
以及最终相对距离的c如表4所示:
利用表的量化结果,就能得出各站位对应的水质评价等级。将本文评价结果与模糊综合评价、BP神经网络评价以及文献 [7] 进行对比,具体评价结果如表5所示。
Table 5. Comparison of evaluation results
表5. 评价结果对比
分析比较实验结果,模糊综合评价法在站位1、站位2、站位3、站位5的评价结果不够客观准确,导致其结果的主要原因为权重的计算方式不当,其客观权重的计算没有考虑数据量纲的影响,即认为数据越大的指标信息量越大,当某种指标非常小甚至为0时,其权重就变得非常小,即认为对评价结果几乎没有影响。BP神经网络相较于其他文献,在站位1处的评价结果较差,其原因极有可能是陷入局部极小。而文献 [7] 在站位11的评价结果普遍比其他文献较差,其得分甚至高于站位5~8,与其他文献的结果相悖。从评价结果的数据来看,可能是BSO算法迭代达到了终止条件,或是通过插值生成的训练样本多样性不足所导致。反观组合权重-TOPSIS法,能够解决模糊综合评价权重选取不合理,模型简单等问题,同时避免了BP神经网络容易陷入局部极小、模型过于复杂和模型可解释性弱等问题。
为了进一步说明结果的可信度和模型的实际应用价值,接下来对模型的敏感性进行分析,模型的敏感性分析采用增加和减少样本的个数,观察原有样本的水质评价等级是否具有较为明显的变动来体现。具体实施方法为,在本文所选12个站位的样本基础上,依次逐个减少站位1、站位2、站位3的样本,记录每次减少样本后剩余样本的水质等级是否发生较大改变。减少样本的对应分析结果如表6所示:
Table 6. Analysis of results for reduced samples
表6. 减少样本的结果分析
同理,逐步在正负理想解范围内随机生成3个样本,记录每次增加样本对原有样本的水质等级造成的影响。增加随机样本的分析结果如表7所示:
Table 7. Analysis of results for added random samples
表7. 增加随机样本的结果分析
根据以上实验结果显示,原样本水质等级结果均未发生改变,说明该模型在样本发生改变时预测结果依然可靠,具有较好的稳定性。
5. 结论
1) 本文将熵权和CRITIC赋权法相结合,得到一种客观组合权重计算方法。组合权重法同时兼顾海水指标的差异性和关联性,得到的权重更加准确、客观。再将组合权重与TOPSIS评价法结合起来,得到一种新的海水水质评价模型。
2) 以胶州湾12个监测站的监测数据作为评价对象,通过与文献 [7] 等文章的对比分析,结果表明组合权重-TOPSIS海水水质评价模型能够准确地评价海水水质等级。
3) 本文提出的模型充分利用原始数据的信息,具有模型简单、不要求样本容量多少的优点,从而提高了海水水质评价结果的准确性,为海水水质评价提供了一种新的参考。
NOTES
*通讯作者。