1. 引言
不确定性事件与现象普遍存在于人类社会之中,其中对概念认知的不确定性问题最为显著。云模型是李德毅院士所提出的一种定性概念与定量描述之间的不确定性转换模型[1]。该模型将不确定性概念的随机性与模糊性紧密联系,通过云模型的数字特征(期望,熵,超熵)描述概念的不确定性。云模型属于定性定量不确定性转换模型,目前已在多个领域得到广泛应用,如决策及系统评估[2][3]、风险评估[4]、数据挖掘[5]等。而如何准确地度量云模型间的相似性是其在各应用领域中面临的最为重要的问题。
现有的云模型相似度测算方法研究主要从以下几个角度出发:基于云滴的距离测算、基于数字特征的向量测算、基于形状的重叠面积测算以及兼顾云滴距离和形状面积的综合测算。张勇等[6]通过利用正向云发生器算法生成云滴,随机选取一定数量云滴并计算所有组合的累计距离的均值作为相似度,但该方法受云滴数量和实验次数的参数设置影响,计算量大且结果不稳定;张光卫等[7]基于云模型的数字特征,将云模型的相似度测算转化为向量的夹角余弦值计算,但当某个数字特征较大时,容易削弱其它数字特征的作用,产生较大的误差;李海林等[8]提出基于正态云模型期望曲线和最大边界曲线的相似性度量方法,通过计算特征曲线相交时的公共部分面积衡量云模型间的相似程度,但前者忽略了超熵的影响而后者扩大了超熵的影响,导致结果存在偏差;龚艳冰等[9]提出基于组合模糊贴近度的相似性度量方法,将修正的特征曲线作为模糊数的隶属函数,通过计算模糊贴近度来衡量云模型的相似程度,但当熵较大时,会削弱超熵的影响,并且未考虑模糊数之间存在两个交点的情况;汪军[10]、徐聪[11]等分别提出基于云滴方差和基于期望曲线与最大含熵期望曲线的云模型形状相似度,但都削弱了熵对云模型形状的影响。为了降低相似度测算方法的时间运行代价,许昌林[12]、Xu[13]等分别提出基于Hellinger距离和Wasserstein距离的云模型相似度方法,但当度量处于特殊情况下的云模型时其结果与实际存在误差。
针对上述问题,借鉴文献[14]中的相互隶属度概念,对文献[9]中所提及的模糊贴近度进行改进,构建基于改进的模糊贴近度和基于熵与云滴方差的正态云模型形状相似度。引入组合赋权思想[15],提出一种组合赋权的正态云模型相似性度量方法,并通过仿真实验和时间序列分类实验验证该方法的有效性及稳定性。
2. 云模型及模糊贴近度
定义1[16]设U是一个定量论域,C是U上的定性概念,若定量值
,且x是定性概念C的一次随机实现,x对C的确定度
是有稳定倾向的随机数
则x在论域U上的分布称为云,每一个x称为云滴。
定义2[16]云模型用
整体表示一个概念。期望Ex表示云滴在论域空间上的期望,即概念量化的最典型样本;熵En表示定性概念的不确定性度量,反映云滴的取值范围;超熵He表示熵的不确定性度量,即熵的熵,如图1所示。
定义3[16]若随机变量x满足:
,其中
且
,则
称为正态云模型的期望曲线。
Figure 1.Normal cloud modelC(15, 3, 0.5) and expected curve diagram
图1.正态云模型C(15, 3, 0.5)及期望曲线示意图
定义4[17]设
为论域U的模糊幂集,若映射
满足:
(1)
(2)
(3)
称
为
与
的贴近度。
3. 组合赋权的正态云模型相似性度量
3.1. 基于改进的模糊贴近度的正态云模型形状相似性度量
模糊贴近度概念是我国学者汪培庄教授首先提出来的,用以描述模糊集之间的贴近程度。通过引入相互隶属度概念[14],定义如下模糊贴近度。
定义5 设论域
为实数域
,
、
为正态模糊数,则有
其中,
表示两个模糊数的隶属函数相交重叠时公共部分与横轴围成的面积。假设模
糊数的隶属函数为正态云模型的期望曲线,那么云模型的相似度测算就可以转化为模糊数贴近度计算。
设正态模糊数
与
的隶属函数为
令
,得到两个正态模糊数交点横坐标为
(1)
(1) 存在单个交点
若
,
,两个正态模糊数的位置如图2(a)所示。依据云模型“
”规则,当交点
或交点
落在区间
,则存在单个交点。而交点
不在
与
之间,故只需考虑交点
。根据上述定义的正态模糊数贴近度,有
(2)
(3)
为简化计算,令
,
,得到
同理,令
,
,得到
将上式代入式(2),得到
(4)
其中,
。同理得到
(5)
若
,
,两个正态模糊数的位置如图2(b)所示。正态模糊数贴近度为
(6)
(2) 存在两个交点
若
,
,两个正态模糊数的位置如图2(c)所示。当两个交点均落在区间
,则存在两个交点,且交点
。正态模糊数贴近度为
(7)
(8)
同(1)的换元方式,有
将上式代入式(7),得到
(9)
其中,
,
,
。同理得到
(10)
定义6 设云模型
和
,
、
为对应的正态模糊数,则称
(11)
为两个正态云模型基于模糊贴近度的形状相似度。
(a) (b)
(c)
Figure2.Different cases of intersection of normal fuzzy numbers
图2.正态模糊数相交时的不同情况
3.2. 基于熵与云滴方差的正态云模型形状相似性度量
云模型的三个数字特征中,熵En表示定性概念的不确定性度量,可以描述云的宽度。正态云模型的云滴集合是一个期望为Ex,方差为
的随机变量,其方差可以描述云滴整体的离散程度。当熵En相差较大时,两朵云的位置就越趋近于“包含”关系。它们的差值越大,其相似度就越低。故本文考虑在云的熵En下正态云模型云滴的整体分布特征,采用云的熵En与方差的算术平方根
的乘积能更加全面地描述云的形状,凸显熵En对形状的影响。它们之比更能反映两个云模型之间的形状差异。
定义7 设云模型
和
,则称
(12)
为两个正态云模型基于熵与云滴方差的形状相似度。
3.3. 基于组合赋权的正态云模型形状相似性度量
上述提出的两种云模型相似性度量方法基于不同的角度出发,衡量云模型间的相似程度。基于改进的模糊贴近度的形状相似度方法仅考虑期望Ex与熵En的影响,忽略了超熵He的作用。而基于熵与云滴方差的形状相似度方法并未利用到期望Ex。云模型是通过三个数字特征表征的,度量云模型间的相似性需综合考虑它们的影响。本文参考文献[15]中组合赋权的方法,引入偏好系数,将以上两种正态云模型形状相似性度量方法进行组合,得到一种组合赋权的正态云模型形状相似性度量方法(Combination Weighting based Cloud Model, CWCM)。
(13)
其中,
、
(
)为两种相似度的偏好系数,满足:
(14)
具体算法如下:
算法1基于组合赋权的正态云模型形状相似性度量算法
输入:两个云模型
和
;
输出:两个云模型间的相似度
。
Step1:设
,
,则交点
;
Step2:若
且
,则两个正态模糊数间不存在交点,
,否则进行下一步;
Step3:若
且
,则两个正态模糊数间存在两个交点,根据式(9)、式(10)和式(11)计算得到
;
Step4:若
或
在区间
内,则两个正态模糊数间存在一个交点。若
,根据(4)、式(5)和式(11)计算
,否则根据式(6)和式(11)计算
;
Step5:根据式(12)计算
;
Step6:根据式(13)和式(14)计算
。
4. 实验与结果分析
4.1. 仿真实验
为了验证本文方法的有效性和区分度,选取文献[6]和文献[7]的云模型进行相似度计算,与现有方法进行比较,分析它们的相似度实验结果。
实例1. 文献[6]给出3个云模型,分别为
,并与现有方法中的ECM (expectation based cloud model)[8]、MCM (maximum boundary based cloud model)[8]、LICM (likeness comparing method based on cloud model)[7]和CFSM (combined fuzzy similarity measure)[9]进行比较,说明本文方法CWCM的有效性,结果如表1所示。
Table 1.Comparison of results from different similarity measures (Illustration of the validity of the methods in this paper)
表1.不同相似性度量方法的结果对比(本文方法的有效性说明)
|
ECM |
MCM |
LICM |
CFSM |
CWCM |
|
0.8728 |
0.7821 |
0.9717 |
0.8390 |
0.8506 |
|
0.8336 |
0.8983 |
0.9438 |
0.7961 |
0.8476 |
|
0.9138 |
0.8800 |
0.9850 |
0.9309 |
0.8620 |
从表1可知,通过本文方法CWCM计算得到的相似度中,云模型
与
相似度最大,其次是
与
,最后是
与
。MCM方法由于扩大了超熵对相似性的影响,导致云模型
与
的相似程度大于
与
,其结果与其它四种方法存在偏差,从而说明本文方法是有效的。
实例2. 文献[7]给出4个云模型,分别为
。同实例1中的对照方法进行比较,说明本文方法CWCM的区分度,结果如表2所示。
Table2.Comparison of results from different similarity measures (Illustration of the discrimination of methods in this paper)
表2.不同相似性度量方法的结果对比(本文方法的区分度说明)
|
ECM |
MCM |
LICM |
CFSM |
CWCM |
|
0.01 |
0.33 |
0.96 |
0.02 |
0.04 |
|
0.04 |
0.37 |
0.97 |
0.04 |
0.09 |
|
0.94 |
0.96 |
0.99 |
0.92 |
0.93 |
|
0.86 |
0.95 |
0.99 |
0.85 |
0.82 |
|
0.01 |
0.38 |
0.97 |
0.02 |
0.02 |
|
0.04 |
0.37 |
0.98 |
0.04 |
0.10 |
从表2可知,四个云模型中,云模型
与
最相似,其次是
与
,其结果与其它四种云模型相似性度量方法一致。其中,
与
相似度相差0.11。其余方法中,区分度最大的ECM方法计算得到的相似度仅相差0.08,最小的LICM方法区分度为0。因此,本文所提出的方法具有更好的区分度。
4.2. 时间序列分类实验
时间序列是将数据按时间顺序排列的具有高维特征的数值序列,广泛运用于金融分析、经济预测、气象研究及数据挖掘等领域。时间序列的聚类与分类是数据挖掘中的重要内容,而相似性度量方法是决定聚类与分类效果的关键因素。这里利用时间序列数据分类实验验证本文方法的稳定性。实验选取UCI数据库中的Synthetic control chart时间序列数据集,该数据集共有600个序列样本,样本长度为60,包含6类不同特征的数据,每类由100个样本构成。在测试集与训练集的选取上,将每类数据等份划分为10份,每次实验选取其中的1份作为测试集,剩下的590个序列样本作为训练集[18]。
实验采用最近邻(K-Nearest Neighbor, KNN)算法进行时间序列分类。首先对每个序列样本数据进行云模型表示预处理,即通过基于云X信息的逆向云发生器算法[19],将所有数据样本转化为用数字特征表征的云模型,然后计算每类测试集与训练集的相似度矩阵,最后依据相似度矩阵得到分类结果。根据各分类结果,可以计算得到各分类正确率及其均值。各云模型相似性度量方法的分类正确率如图3所示。其中,选取ECM、MCM、LICM和CFSM方法作为实验对照。由于KNN算法中的参数K会影响分类效果,故又采用不同的参数K进行分类实验,分析本文方法CWCM分类正确率的变化趋势,结果如图4所示。
由图3可知,本文所提出的相似性度量方法的分类正确率与其余4种方法中的MCM方法一致,与最高的ECM方法仅略低0.01,而LICM方法仅在第1类的分类实验中效果较好,其它分类实验的效果并不稳定,CFSM方法的分类正确率是最低的。由图4可知,对于不同的近邻数K,第1类与第2类的分类正确率并无影响,而其余各类的分类正确率均有不同程度的变化。其中,第3、4类的分类正确率呈现波动趋势,而第5、6类整体上呈现下降趋势。结果表明,本文方法相比于LICM和CFSM方法在分类正确率上有更好的提升,且通过实验验证了本文方法在时间序列分类中有不错的效果,而总体上近邻数K对分类正确率的影响并不大。该实验进一步说明了本文方法的稳定性。
Figure3.Comparison of classification accuracy results of different similarity measurement methods
图3.不同相似性度量方法分类正确率结果对比
Figure4.Comparison of classification accuracy results under different neighbor numbers K
图4.不同近邻数K下的分类正确率结果对比
5. 结论
正态云模型作为最为重要的一种云模型,已在多个领域得到广泛应用。而正态云模型相似性度量方法在云模型应用中极为重要,将直接影响结果的准确性。本文针对现有方法中存在的问题,提出了一种基于组合赋权的正态云模型形状相似性度量方法,并通过数值仿真和时间序列分类实验验证了该方法的有效性、区分度和稳定性,得到以下结论:
(1) 本文通过改进模糊贴近度,考虑云滴的离散程度与熵En对云模型形状的影响,并基于偏好系数,将两种不同的正态云模型形状相似度组合,提出了一种新的形状相似性度量方法。该方法综合利用了云模型的三个数字特征,能够较好地描述云模型间的差异。
(2) 在数值仿真实验中,该方法能够准确地衡量云模型间的相似程度,其结果具有更高的区分度,而在时间序列分类实验中,相比LICM和CFSM方法具有更好的稳定性,有效地解决了现有方法中区分度不高,结果不稳定等问题。
(3) 本文方法是对现有方法的进一步补充完善,如何将不确定性理论中的模糊贴近度概念运用到云模型相似性度量中,是今后研究的一个重要方向。
基金项目
国家自然科学基金项目(71961001)。
NOTES
*通讯作者。