1. 引言
水文水资源系统在其发生、发展、演变过程中受到自然因素、生态环境因素和社会经济因素等众多因素的综合作用,使得系统中存在着随机性信息、模糊性信息、灰色性信息、混沌性信息、错误信息和主观信息等大量的不确定信息[1] 。故在水文领域中存在较多的不适定问题,即根据所给条件或假设无法同时满足解的存在性、唯一性和确定性,如概率密度函数的确定、水文模型的参数估计等。分析和研究这些不适定问题,可以丰富和完善水文学理论,更加科学地模拟水文过程,合理地预测水文现象。另一方面,水文事件的各个特征属性之间普遍具有相关性。这种相关性不仅存在于水文事件内部(如洪峰和洪量,干旱的强度和历时),也存在于水文事件之间(如降雨、径流的空间相关性)。为了科学、客观地认识水文现象的本质特征,实现防洪减灾和水资源的综合利用,我们也需要对水文事件间的相关关系加以研究。
本文旨在综述熵原理在水文水资源学科中的应用。一方面是不适定问题,最大熵原理在这方面得到了较好的应用。另一方面是相关性分析问题,互信息和Copula熵理论为水文学的相关性分析提供了一条新途径。本文介绍了最大熵原理和基于互信息等的相关性分析理论,并综述了它们的发展历程及应用领域,最后对今后的研究进行了展望。
2. Shannon熵
1948年,Shannon创立了信息论,并提出了信息熵的概念。信息蕴含于不确定性之中,信息量的定量表征必然联系着不确定性的度量。Shannon所提出的信息熵概念解决了信息的不确定性度量问题,在许多学科得到了广泛的应用[2] 。
对离散型随机变量X,设其可能取值为,且对应的各个取值的概率分别为,则其Shannon熵的表达式为:
(1)
由此表达式可见,如果X是一个确定性变量,即它取某一个值的概率为1,那么它的Shannon熵H(x)=0;相反的,如果X取该序列的任何值是等可能的,即,则其Shannon熵。可见离散型随机变量的Shannon熵的值域是[0,logN]。
对连续型随机变量X,设其概率密度函数为f(x),则x在区间(a,b)的Shannon熵H(x)的值为:
(2)
3. 最大熵原理及其应用
3.1. 最大熵原理(Principle of maximum entropy, POME)
对于一个随机变量X,有时候我们需要知道它的概率密度函数,为了从已知的信息中获得其分布函数,Jaynes提出了最大熵原理的方法[3] 。最大熵原理是基于给定的信息,选出所有符合条件的分布函数中熵最大的那一个作为其分布函数。这一原理所确定的概率分布应与已知的信息相吻合,同时不对未知的部分作任何的人为假定,所以基于最大熵原理得到的概率分布最接近真实的分布[4] 。
3.1.1.最大熵原理的约束条件
若可以从观测中得到随机变量X的信息,则可以用如下方法表达其约束,由概率密度函数的性质可得:
(3)
(4)
式中,是反映变量X约束的函数,是的期望。
这种约束的表达有一定物理意义,对大多数水文学问题,一般有两三个这样的约束条件。
3.1.2. 最大熵的求解
最大熵的问题即转变成一个有约束的极值问题。一般采用拉格朗日乘法来求解其最大熵,构造拉格朗日函数:
(5)
式中,为拉格朗日乘子。
令L对f(x)的偏导为0,可得,
(6)
即
(7)
由此可得,
(8)
因此,最大熵的表达式为:
(9)
3.2. 最大熵原理在水文水资源中的应用
3.2.1. 概率密度函数推导
利用最大熵原理,选用合理的约束条件,就可求出满足约束条件并使熵最大的概率密度函数。在这一方面,Sonuga [5] 首次应用最大熵原理推导了基于有限数据最小偏差的正态分布;并在1976年定义了条件熵,进而推导了径流对降雨的条件分布[6] 。此后许多学者都通过最大熵原理来推导概率密度函数,得到了较多的成果。Sogawa和Araki [7] 用最大熵原理推导了多元分布,并将其应用于年降水和年最大降水的分析。Singh和Rajagopal [8] 应用最大熵原理建立了参数扩张法(Parameter-space expansion method),该方法可用于以有限个参数显式表达的任何概率函数,相比于以前的方法更为适用。Singh还导出了伽马分布[9] 、皮尔逊Ⅲ型分布[10] 、韦伯分布[11] 、极值Ⅲ型分布[12] 。张明[13] 通过最大熵原理对地貌瞬时单位线中的等待时间概率密度函数进行研究,得出了等待时间概率密度函数等价于皮尔逊Ⅲ型分布的结论。Papalexiou和Koutsoyiannis [14] 推导了三参数广义伽马分布和四参数广义贝塔分布。实例证明,用最大熵法所得到的概率密度函数与直接概率方法所得的结果是一致的。最大熵法的优势是,不需要假定具体的分布,即可求得拟合较优的分布函数。
此外,一些学者对径流的分布函数进行了相关研究。Hao和Singh [15] 运用最大熵原理确定了两相邻月径流量的联合、条件概率密度函数,进行了单站点的月径流模拟。Zhang和Singh [16] 针对SPDD (Standardized peak discharge distribution)回归径流模型模拟的缺点,即只能对径流的均值作出预测,通过最大熵原理得到了洪峰流量对径流深的条件分布以及两者间的联合概率密度函数,分析了径流深和洪峰流量的相关关系。并验证了在适当的约束条件下,该方法相对与SPDD方法的优越性。从这些学者应用结果来看,最大熵法的优点是不对径流数据概率密度函数作任何先验的假设,只根据现有的信息量,即可得出相应的概率密度函数,且结果较为合理可信。但当数据较多时该方法较为复杂,且无法模拟数据的双峰特性。另一方面,一些学者利用最大熵原理对流深和流速的分布函数进行了相关研究。Chiu [17] [18] 利用最大熵原理推导了河道截面的二维流速分布;Moramarco等[19] 根据这种方法推导了天然河道径流深度分布的概率密度函数;Farina等[20] 改进了此方法,使得概率密度的确定不依赖于表面流速的测定结果,测算更为简单。此外,Cui和Singh [21] 利用最大熵原理和Tsallis熵推导了明渠的二维流速分布,结果表明,由最大熵原理推导的流速分布能够较好地预测某一深度的流速值。
3.2.2. 参数估计
在参数估计方面,学者们利用最大熵原理对一系列的分布进行了参数估计。Jain和Singh [22] 首次阐明了最大熵原理在参数估计方面的优点,并对极值Ⅰ型分布进行了研究。在此基础上,Fiorentiao和Arora等[23] 对二元极值分布进行了参数估计。此后,Singh和Guo利用最大熵原理分别对三参数对数逻辑分布[24] 、二参数对数逻辑分布[25] 、二参数帕累托分布[26] 、三参数广义帕累托分布[27] 、二参数广义帕累托分布[28] 进行了参数估计;在对这些分布进行参数估计的同时,Singh和Guo还将POME方法估计的结果与矩估计、极大似然估计、概率加权估计等方法进行了比较分析[24] -[28] ;结果表明,最大熵法的估计结果与极大似然估计、矩估计等方法相当,且结果合理可信。POME方法优点在于,分位数估计值的偏差要小于其它方法,且计算简便。但最大熵估计法也不具备绝对的优越性,对于不同的分布,它有特定的最佳适用区间,序列长度和概率大小也对其影响较大,在某些区间可能会产生较大偏差。此外,李元章和从树铮[29] 将最大熵原理法与极大似然法和适线法进行了对比,得出熵估计方法更加简便。张明[30] 用最大熵原理估计Nash模型参数,验证了其相对于矩法估计的优越性。Hao和Singh [31] 对扩展Burr-VII分布进行了参数估计,发现最大熵法、矩法、极大似然法、概率加权法在重现期较短时(Smaller return periods)得到的结果是相似的,而对重现期较长的序列就会产生较大差异。
此后,一些学者对以往的研究工作进行了一定地改进。李娟等[32] 在对P-III分布进行参数估计、臧红霞等 [33] 对三参数的对数分布进行了参数估计时,考虑了历史洪水信息,给出了新的计算式,结果表明计算精度得以提高。张明和张阳[34] 从梅林变换出发,对多种水文频率分布参数估计的最大熵法进行了推导。相比于传统的拉格朗日乘子法,此方法更加简单、易懂。
3.2.3. 水资源评价
目前,已有一些学者将最大熵原理应用于水资源评价。其主要做法为利用相对隶属度等概念,综合考虑水环境评价的随机性和模糊性,定义不同的加权广义权距离来表征待评价水样与水质标准的差异,并用最大熵原理确定评价过程中的相对隶属度矩阵。最大熵法所建立的评价模型概念清晰,且相对于灰色聚类法有较高的分辨率[35] 。譬如,张成科[36] 提出了基于最大熵原理的水质模糊评价模型,在汾河水质站得到了较好的应用结果。赵庆良[37] 等建立了水质模糊综合评价模型,并对开封市惠济河水质进行了综合评价。王栋和朱元甡[38] 对12个有代表性的湖库进行了评价;姜志群和朱元甡[39] 应用相似的方法对淮河流域水资源可持续性进行了评价,得到了符合实际情况的结果。从这些学者的应用成果来看,基于最大熵原理建立的评价模型概念清晰,计算简便实用,能综合考虑水质评价中存在的模糊性与随机性,有效减少了模糊评价中的主观性,可靠性较高,是一种很好的评价方法。
4. 相关性分析及其应用
4.1. 互信息及相关概念
4.1.1. 互信息定义
互信息定义的是两个或多个随机变量之间的共享信息量,即变量间的共享信息量越多,其互信息越大[40] 。例如,对于连续型随机变量X和Y,其互信息的定义为:
(10)
式中,是随机变量X,Y的联合分布,而和分别表示其边缘分布。由定义式可以看出,若变量X、Y是相互独立的,则,则互信息为0,说明X、Y之间共享的信息是0,由其中一个变量的信息得不到另一个变量的任何信息。
4.1.2. 互信息的性质
互信息和联合熵以及条件熵之间有密切关联。对随机变量X和Y,若其联合分布函数为,则其联合熵可定义为:
(11)
结合信息熵、联合熵和互信息的定义可知,
(12)
另一方面,对随机变量X和Y,X关于Y的条件分布函数为,则X关于Y的条件熵为:
(13)
结合信息熵、条件熵和互信息的定义可知,
(14)
(15)
式(14)、(15)表明一个变量的信息熵是该变量关于另一个变量的条件熵以及两个变量的互信息之和。从这个关系,我们可以知道,两随机变量间的互信息越大,其条件熵便越小,即在已知变量X的情况下,若X和Y的互信息越大,则Y残存的不确定性便越少。取极端情况,若随机变量X和Y完全相关时,两随机变量间的互信息趋于正无穷,而条件熵则趋于负无穷;若随机变量X和Y完全独立,则它们之间的互信息为0,则有。
4.1.3. 互信息在水文水资源中的应用
互信息作为一种相关性分析方法,目前被较多地应用于水文站网的设计与优化中。传统的站网设计方法主要为数理统计法和克里格法等,其缺点在于均无法度量站点的信息量和站网间的信息传递量,而信息熵、互信息等不仅能从数据、精度等方面进行统计评价,还可从水文监测网的系统性和信息关联度等方面评价每个观测点和观测网系统提供信息的能力,具有较大的优越性[41] 。Langbein [42] 首次提出熵理论能用来量化监测系统的效率和效益。Rodriguez-Iturbe和Mejia [43] 用互信息的数学计算方式扩展了这一观点。此后,一些学者研究了基于熵和互信息的站网设计方法。譬如,Harmancioglu [44] 提出了一种互信息最小的准则,利用该方法进行站网设计得到的冗余信息量最少;Markus等[45] 定义了信息传送量和信息接收量,并认为站点的信息传送量和接收量的差值越大,该站点的价值便越大;Sarlak和Sorman [46] 将这两种方法进行了分析比较,讨论了最适用于这两种方法的概率密度函数。除此之外,Caselton和Husain [47] 、Alfonso等[48] 也给出了信息熵和互信息在水文站网设计方面的应用实例。另一方面,一些学者对先前的工作进行了改进。譬如,Husain [49] 用熵和互信息表达出了水文站网的信息传输能力,并提出了一种站网设计方法;Yang和Burn [50] 指出该方法在降雨量估计过程中对全区域的熵值插补只考虑了最近的站点,产生了误差,并提出了定向信息传递系数来描述站点的信息量和信息的转换、丢失等过程,实例证明其设计方法减小了误差。Harmancioglu和Alpaslan [51] 使用了信息不确定度的方法来进行水质监测网络设计;Ozkul等[52] 认为该方法在多元变量的情况下,熵的计算式受到分类间隔大小(Class interval size)的影响,对其方法进行了改进,并用密西西比河流域的数据进行了检验,得到了满意的结果。从这些学者的应用成果来看,互信息法的优点在于它是一种非参数的方法,且对变量的函数形式没有限制,即可以服从任何分布;其次,它不受线性和正态性假设的限制,适用于水文研究领域。同时,我们不可忽视该方法也有其自身的缺陷,当有效样本量较小时,该方法可靠性很低;另一方面,其计算必须基于一个有效分布来进行,且当分布是多元分布时,计算过程会较复杂。因此也有一些学者在这一方面进行了研究。譬如,Al-Zahrani和Husain [53] 采用了二元伽马分布进行熵和互信息的计算,并将其应用于沙特阿拉伯的第三水文区域的网络评估中;Sarlak和Sorman [46] 分别讨论了用正态、对数正态分布进行站网间最小互信息的计算,还讨论了用正态、对数正态、伽马分布进行信息传送量和接收量的计算,得出了两种方法最为适用的概率密度函数;Yoo等[54] 对比了混合对数正态分布函数和连续正态分布函数进行熵计算的特点,得出使用混合对数正态分布函数进行计算时,熵和互信息对降雨的时空间歇性参数更为敏感这一结论。近些年来,也有一些学者引进了一些新的方法进行了站网的设计与优化。譬如,陈颖[55] 在已有的描述站点间信息传输规律的互信息距离模型和相关系数距离模型基础上,提出了互信息沿线距离模型和相关系数沿线距离模型;通过密苏里流域站点的数据将四种模型进行了对比,得出最佳模型为互信息距离模型。Su和You [56] 应用二维互信息–距离关系建立模型来估计无资料区域和已有站点间的互信息量,将其应用到石门水库流域的时空信息模式的调查中;该应用表明信息传递效率决定了信息内容的空间分布,但其自身受到时空尺度的较大影响。
此外,互信息还被用于水文预报中。譬如,赵铜铁钢和杨大文[57] 基于互信息的概念探讨了如何选择径流预报输入变量,并结合宜昌水文站的日径流预报进行了研究,得出基于互信息可以有效判断待选预报因子与预报变量间的相互关系,提高了预报精度。龚伟[58] 提出了适用于高维高相关数据的互信息计算方法。并通过在不同流域和采用不同模型的应用分析,提出了水文预报中模型选择和改进的策略,检验了信息熵和互信息计算方法对流域水文数据的适用性。
4.2. Copula熵
4.2.1. Copula函数定义
Copula原理起源于Sklar的一篇重要的文章,Sklar将一个联合分布分解为n个边际分布与一个连接函数叠加的形式[59] 。这个函数描述了变量之间的相关关系,称为Copula函数。Copula函数本质上是一类将联合函数与它们各自的边际分布联系在一起的函数的总称。它在联合分布函数问题中表现出很强的灵活性,并得到了广泛的应用[60] 。
4.2.2. Copula熵理论
Copula熵理论是Ma和Sun在2008年提出的概念,将熵与Copula函数结合起来,采用Copula函数的熵度量变量间的相关性。因为能综合考虑多变量的相关性以及非线性问题,故适用于水文分析领域。该理论的构建方式结合了两个理论的优点,将信息熵的理论进行了扩展,用一维熵函数与Copula函数结合的形式替代了不易处理的联合熵和互信息,具有明显的优势[61] 。
设随机变量X为d维随机变量,其边缘分布函数为Fi(X),,其中,U为服从均匀分布的随机变量,u为随机变量U的具体数值。则Copula函数的熵可表示为:
(16)
式中,为Copula函数的概率密度函数。
4.2.3. Copula熵的应用
Copula熵是近几年才被提出的概念,故目前Copula熵在水文水资源领域的应用还较少,但Copula熵法在水文相关性分析中已显示了其明显的优越性。陈璐和郭生练[62] 基于Copula熵进行BP神经网络因子的选择,验证了Copula熵的适用性。卢韦伟等[63] 将Copula熵法与传统的线性相关法进行了比较分析;并用得到的模型对金沙江流域进行了径流预报,得到了精度较高的结果。Chen等[64] 用Copula熵法分析了长江及其五条支流间的相关关系,并提出用蒙特卡洛法计算Copula熵,而不需计算联合熵和边缘熵,使相关性的评估更直接,且避免了系统偏差的累积效应。
由此可见,用Copula熵进行相关性分析是水文相关性分析的一条新途径。Copula熵方法的优点在于它可度量变量的线性和非线性相关关系,并且不受维数限制,超越了传统线性相关系数和互信息在相关性衡量的二维限制;此外,它对边际分布不作任何假设,结果合理可信;Copula函数值可以采用非参数估计方法获得,在衡量非椭圆分布族的相关性方面效果优良。但Copula熵方法尚不成熟,其在水文水资源领域的应用也需要在今后进一步完善和扩展。
5. 结论与展望
本文综述了熵理论在水文水资源学科中的应用,指出了其优点与不足。在不适定问题的解决方面,最大熵原理是一种可行且有效的方法;在相关性分析方面,互信息和Copula熵为水文变量的相关性分析提供了一条新的途径。针对熵理论及其应用存在的问题,本文认为在以下方面还需要深入研究:一是熵理论的完善与其应用的扩展,目前熵理论仍在发展之中,应用还不成熟,譬如Copula熵,故需要进一步的研究与探索;二是,熵的计算方法也存在许多亟待解决的问题,譬如最大熵解的快速优选算法、互信息计算中的维数灾问题等。因此,开展熵理论及其在水文水资源领域中的进一步研究具有重要的理论和现实意义。
基金项目
国家自然科学基金项目(51309104, 51539009);武汉市科技支撑项目(2014060101010064)。