Shape Similarity Measurement Method of Normal Cloud Model Based on Combination Weighting
To tackle the challenges of limited distinction and inconsistent outcomes in similarity measurement among cloud models, this paper proposed a method for measuring shape similarity of normal cloud models based on combinatorial weighting. Firstly, the approximation degree of a normal fuzzy number is employed to characterize the shape similarity of the cloud model based on its positional relation with the expected curve. Then considering the dispersion degree of cloud droplets, the shape similarity based on entropy and cloud droplet variance is proposed on the basis of cloud droplet variance. Finally, considering the three digital features of the cloud model, based on the preference coefficient, the combination weighting is used to combine the two shape similarities to measure the similarity of the cloud model. The simulation results show that the method is effective and has good discrimination and stability.
Cloud Model
不确定性事件与现象普遍存在于人类社会之中,其中对概念认知的不确定性问题最为显著。云模型是李德毅院士所提出的一种定性概念与定量描述之间的不确定性转换模型
现有的云模型相似度测算方法研究主要从以下几个角度出发:基于云滴的距离测算、基于数字特征的向量测算、基于形状的重叠面积测算以及兼顾云滴距离和形状面积的综合测算。张勇等
针对上述问题,借鉴文献
定义1
则x在论域U上的分布称为云,每一个x称为云滴。
定义2
定义3
称为正态云模型的期望曲线。
定义4
满足:
(1)
(2)
(3)
称 为 与 的贴近度。
模糊贴近度概念是我国学者汪培庄教授首先提出来的,用以描述模糊集之间的贴近程度。通过引入相互隶属度概念
定义5 设论域 为实数域 , 、 为正态模糊数,则有
其中, 表示两个模糊数的隶属函数相交重叠时公共部分与横轴围成的面积。假设模
糊数的隶属函数为正态云模型的期望曲线,那么云模型的相似度测算就可以转化为模糊数贴近度计算。
设正态模糊数 与 的隶属函数为
令 ,得到两个正态模糊数交点横坐标为
(1)
(1) 存在单个交点
若
,
,两个正态模糊数的位置如
(2)
(3)
为简化计算,令 , ,得到
同理,令 , ,得到
将上式代入式(2),得到
(4)
其中, 。同理得到
(5)
若
,
,两个正态模糊数的位置如
(6)
(2) 存在两个交点
若
,
,两个正态模糊数的位置如
(7)
(8)
同(1)的换元方式,有
将上式代入式(7),得到
(9)
其中, , , 。同理得到
(10)
定义6 设云模型 和 , 、 为对应的正态模糊数,则称
(11)
为两个正态云模型基于模糊贴近度的形状相似度。
云模型的三个数字特征中,熵En表示定性概念的不确定性度量,可以描述云的宽度。正态云模型的云滴集合是一个期望为Ex,方差为 的随机变量,其方差可以描述云滴整体的离散程度。当熵En相差较大时,两朵云的位置就越趋近于“包含”关系。它们的差值越大,其相似度就越低。故本文考虑在云的熵En下正态云模型云滴的整体分布特征,采用云的熵En与方差的算术平方根 的乘积能更加全面地描述云的形状,凸显熵En对形状的影响。它们之比更能反映两个云模型之间的形状差异。
(12)
为两个正态云模型基于熵与云滴方差的形状相似度。
上述提出的两种云模型相似性度量方法基于不同的角度出发,衡量云模型间的相似程度。基于改进的模糊贴近度的形状相似度方法仅考虑期望Ex与熵En的影响,忽略了超熵He的作用。而基于熵与云滴方差的形状相似度方法并未利用到期望Ex。云模型是通过三个数字特征表征的,度量云模型间的相似性需综合考虑它们的影响。本文参考文献
(13)
其中, 、 ( )为两种相似度的偏好系数,满足:
(14)
具体算法如下:
算法1 基于组合赋权的正态云模型形状相似性度量算法
输入:两个云模型 和 ;
输出:两个云模型间的相似度 。
Step1:设 , ,则交点 ;
Step2:若 且 ,则两个正态模糊数间不存在交点, ,否则进行下一步;
Step3:若 且 ,则两个正态模糊数间存在两个交点,根据式(9)、式(10)和式(11)计算得到 ;
Step4:若 或 在区间 内,则两个正态模糊数间存在一个交点。若 ,根据(4)、式(5)和式(11)计算 ,否则根据式(6)和式(11)计算 ;
Step5:根据式(12)计算 ;
Step6:根据式(13)和式(14)计算 。
为了验证本文方法的有效性和区分度,选取文献
实例1. 文献
ECM |
MCM |
LICM |
CFSM |
CWCM |
|
|
0.8728 |
0.7821 |
0.9717 |
0.8390 |
0.8506 |
|
0.8336 |
0.8983 |
0.9438 |
0.7961 |
0.8476 |
|
0.9138 |
0.8800 |
0.9850 |
0.9309 |
0.8620 |
从
实例2. 文献
。同实例1中的对照方法进行比较,说明本文方法CWCM的区分度,结果如
ECM |
MCM |
LICM |
CFSM |
CWCM |
|
|
0.01 |
0.33 |
0.96 |
0.02 |
0.04 |
|
0.04 |
0.37 |
0.97 |
0.04 |
0.09 |
|
0.94 |
0.96 |
0.99 |
0.92 |
0.93 |
|
0.86 |
0.95 |
0.99 |
0.85 |
0.82 |
|
0.01 |
0.38 |
0.97 |
0.02 |
0.02 |
|
0.04 |
0.37 |
0.98 |
0.04 |
0.10 |
从
时间序列是将数据按时间顺序排列的具有高维特征的数值序列,广泛运用于金融分析、经济预测、气象研究及数据挖掘等领域。时间序列的聚类与分类是数据挖掘中的重要内容,而相似性度量方法是决定聚类与分类效果的关键因素。这里利用时间序列数据分类实验验证本文方法的稳定性。实验选取UCI数据库中的Synthetic control chart时间序列数据集,该数据集共有600个序列样本,样本长度为60,包含6类不同特征的数据,每类由100个样本构成。在测试集与训练集的选取上,将每类数据等份划分为10份,每次实验选取其中的1份作为测试集,剩下的590个序列样本作为训练集
实验采用最近邻(K-Nearest Neighbor, KNN)算法进行时间序列分类。首先对每个序列样本数据进行云模型表示预处理,即通过基于云X信息的逆向云发生器算法
由
正态云模型作为最为重要的一种云模型,已在多个领域得到广泛应用。而正态云模型相似性度量方法在云模型应用中极为重要,将直接影响结果的准确性。本文针对现有方法中存在的问题,提出了一种基于组合赋权的正态云模型形状相似性度量方法,并通过数值仿真和时间序列分类实验验证了该方法的有效性、区分度和稳定性,得到以下结论:
(1) 本文通过改进模糊贴近度,考虑云滴的离散程度与熵En对云模型形状的影响,并基于偏好系数,将两种不同的正态云模型形状相似度组合,提出了一种新的形状相似性度量方法。该方法综合利用了云模型的三个数字特征,能够较好地描述云模型间的差异。
(2) 在数值仿真实验中,该方法能够准确地衡量云模型间的相似程度,其结果具有更高的区分度,而在时间序列分类实验中,相比LICM和CFSM方法具有更好的稳定性,有效地解决了现有方法中区分度不高,结果不稳定等问题。
(3) 本文方法是对现有方法的进一步补充完善,如何将不确定性理论中的模糊贴近度概念运用到云模型相似性度量中,是今后研究的一个重要方向。
国家自然科学基金项目(71961001)。
*通讯作者。