1. 引言
20世纪80年代波兰数学家Pawlak在经典集合论的基础上,提出了粗糙集理论 [1] [2] ,对知识的自动获取、机器学习以及模式识别等多个科学研究领域的发展都起到了积极的推动作用。粗糙集的理论基础是基于一族等价关系所构成的不可分辨关系对论域的划分,然后利用集合间的包含关系定义了一对近似算子,再利用近似算子根据已有的知识来近似地逼近未知的概念。该理论将人的智能体现在对事物、行为、感知等的分类能力上,而不确定性正好可以归属到这对近似集所刻画的边界域里。
随着研究的不断深入,经典的粗糙集模型已不能有效的解决实际问题。如:现实应用中所采集到数据往往会到一定的噪声干扰,同时往往会一部分数据缺失等复杂因素。此时再利用不可区分关系建立粗糙集模型,下近似算子基于集合的严格包含关系,则显得过于苛刻了,为了让下近似算子从原来的严格包含扩张到具有某种程度意义上的包含,对粗糙集进行量化模型的构建与研究具有较为突出的理论意义与应用价值 [3] 。为此,Ziarko从信息的相对量化角度提出了变精度粗糙集 [4] ,Yao从信息的绝对量化角度定义了程度粗糙集 [5] ,此外对于变精度和程度粗糙集的扩展模型也受到了广泛的关注 [6] [7] 。在变精度粗糙集与程度粗糙集的双量化结合方面,Zhang做了大量突出的工作 [8] [9] [10] [11] ,系统性的研究了一般信息系统的双量化粗糙集模型,Li等人在Zhang的基础上研究了优势关系下变精度与程度“逻辑且”粗糙模糊集,从而进一步推广了双量化粗糙集模型的应用 [12] 。
而从粒计算的角度来看,这些扩展的粗糙集模型的本质仍然是在单一粒度空间多定义的,目标概念的近似集仍是由单一的二元关系所诱导的粒度空间中的基本信息粒来近似表示的。Qian等在对决策分析相关的研究时,指出当多个决策者之间的关系有可能是相互独立的,因而需要采用多个二元关系来进行目标的近似逼近,并针对性的提出了多粒度粗糙集模型的概念 [13] [14] 。在多粒度粗糙集的基本框架下,一些学者将变精度粗糙集或者程度粗糙集引入进来,将信息的量化思想引入到多粒度近似空间中,其中Dou等人提出了可变精度多粒度粗糙集模型 [15] ,Wu则研究了程度多粒度粗糙集 [16] ,在此基础上Shen进一步提出了可变程度多粒度粗糙集 [17] 。而目前的研究中尚没有在多粒度近似空间中,同时考虑信息的相对量化扩张和绝对量化扩张。
本文在上述的研究成果基础上,将变精度粗糙集和程度粗糙集这两种不同角度的信息量化扩张模型,通过“逻辑或”算子在多粒度近似空间中结合起来,建立了多粒度近似空间中的“逻辑或”双量化粗糙集模型,然后对模型的基本数学性质进行了系统性的讨论,该模型作为一种推广的粗糙集模型,对于基于粗糙集理论的知识发现、数据挖掘等一定的参考价值。
2. 预备知识
本节将简要介绍变精度粗糙集模型,程度粗糙集模型和多粒度粗糙集模型的相关基本知识,为讨论基于“逻辑或”算子的双量化多粒度粗糙集模型提供必要的理论基础。设四元组
为一个信息系统,其中
为论域是非空有限对象集,
为属性集,
为有限值域,
是对象关于属性的关系集。对任意的
可以得到一个不可分辨关系,即
,则
中关于属性
所有与
具有不可分辨关系
的对象的集合为
,即为
关于属性集
的等价类 [6] 。
2.1. 变精度粗糙集模型
设
为一个信息系统,对任意的
,
,
称为等价类
关于集合
的错误分分类率,其中
表示集合的势。设
称为可调错误分类水平,
称为精度。集合
分别称为
依精度为
的关于属性
上、下近似集。若
,则称
在精度
下是关于
粗糙的,否则称
是关于
精确的。而
是“关于
的错误分类率小于
的等价类”的所有元素并集,
是“关于
的错误分类率不大于
的等价类”的所有元素的并集 [4] [6] [8] 。
2.2. 程度粗糙集模型
设
为一个信息系统,对任意的
,
,
(非负常数)为自然数,集合
分别称为
的程度为
的关于
上、下近似集,若
,称
在程度时是关于
粗糙的,否则称为是关于
精确的。其中
是“属于
的元素个数多于
个等价类”的并集,
是“最多只有
个元素不属于
的等价类”的集合的并集 [5] [6] [8] 。
2.3. 多粒度粗糙集模型
在粒计算数据分析的方法中,采用一族不可分辨关系来进行目标概念的近似逼近,也就是多粒度粗糙集模型,其形式上包括乐观多粒度粗糙集和悲观多粒度粗糙集 [13] [14] 。
设
为一个信息系统,
,任意的
,
的乐观多粒度下近似算子
与上近似算子
分别定义为:
其中
表示
的补集,当上下近似集不等时则称集合
是关于粒度
乐观粗糙的。从定义中可以看出,当某个对象属于乐观多粒度下近似时则要求该对象至少有一个粒度上的等价类包含在目标概念中。与乐观多粒度粗糙集相对应悲观多粒度粗糙集定义如下:
在该定义中,我们可以看到当某个对象属于悲观多粒度下近似集时,要求该对象在所有粒度上的等价类都包含在目标概念中,因而悲观多粒度下近似的要求要比乐观多粒度下近似的要求更为严格。
3. 多粒度近似空间中的“逻辑或”双量化粗糙集模型
本节我们基于“逻辑或”算子将变精度粗糙集和程度粗糙集结合起来,在多粒度近似空间中建立“逻辑或”的双量化粗糙集模型。紧接着分从“逻辑或”双量化乐观多粒度粗糙集模型和悲观多粒度粗糙集模型入手,对所建立的双量化多粒度粗糙集模型的数学性质进行了系统性的讨论。
3.1. “逻辑或”双量化乐观多粒度粗糙集模型
定义3.1.1. 设
为一个信息系统,若
,
,
为非负常数,对任意的
,则
基于“逻辑或”算子的乐观双量化多粒度下近似算子和上近似算子定义如下:
称序偶
为集合
依精度为
且程度为
的乐观“逻辑或”双量化乐观多
粒度粗糙集,从下近似的定义我们知道,当某个对象
属于逻辑与乐观双量化多粒度下近似集时,要求
至少有一个粒度使得
,或者存在一个粒度使得
,其中粒度
和
可以相同也可以不相同。根据定义3.1.1所定义的近似算子,我们可以给出“逻辑或”双量化乐观多粒度粗糙集的各个粗糙区域。由于程度粗糙集的下近似集并非一定包含于上近似集,因此我们分别定义正域、负域、上边界域、下边界域如下:
1)
2)
3)
4)
5)
为了便于书写,我们一般将上述粗糙集区域进行简写,如正域简记为
。其中“
”表示集合的对称差运算,故
,接下来将对“逻辑或”双量化乐观多粒度粗糙集模型的性质进行研究。
定理3.1.1. 设
为一个信息系统,若
,
,
为非负常数,对任意的
,则关于
的“逻辑或”双量化乐观多粒度上近似集,有
证明:由定义3.1.1知
由定理3.1.1可知,对象
属于“逻辑或”双量化乐观多粒度上近似集时,意味着关于所有粒度满足
且
成立。
定理3.1.2. 设
为一个信息系统,若
,
,
为非负常数,对任意的
,则“逻辑或”双量化乐观多粒度近似算子有如下性质成立。
1)
;
2)
;
3)
;
4)
;
5)
;
6)
;
7) 若
,则
,
;
8) 若
,则
,
。
证明:(1)和(2)由定义3.1.1易证。
3) 对任意的
,由定义3.1.1可知存在粒度
使得
或者
,其中
与
无关。又因为对任意的
有,
或者
,也就是有
,同理可得
。所以
,即
。
4) 任取
,若
有
或者
,任
,
,或者
,则有
当
有
,则
。
5) 任取
,由定理3.1.1知对任意的粒度
,有
且
,又
,同时
,所以有
,同理可得
也同时成立,因此(5)得证。
6) 由定义3.1.1可知,上下近似算子之间存在对偶性,因此由(5)的证明可知(6)也成立。
7) 不妨任取
,由定义知存在粒度
和
,使得
或者
,又因
,故
,则
,也即是
。那么可以得
,那么
,由定义可知
。
8) 对任意的
,有
或者
,而
,则
,所以有
,即
。与(7)类似,利用上下近似算子间的对偶性可直接得到
。
3.2. “逻辑或”双量化悲观多粒度粗糙集模型
接下来,我们将用类似于上一节的方法,对“逻辑或”双量化悲观多粒度粗糙集模型进行研究。
定义3.2.1. 设
为一个信息系统,若
,
为非负常数,对任意的
,则
基于“逻辑或”算子的悲观双量化多粒度下近似算子和上近似算子分别定义如下:
称序偶
为集合
依精度为
、程度为
的“逻辑或”双量化悲观多粒度
粗糙集,从下近似的定义我们知道,当某个对象
属于“逻辑或”双量化悲观多粒度下近似集时,要求
对所有的粒度有
,或者
,即对任意的
满足条件。“逻辑或”双量化悲观多粒度粗糙集模型中对于粗糙集区域的定义方法与3.1节中类似。
定理3.2.1. 设
为一个信息系统,若
,
,
为非负常数,对任意的
,则关于
的悲观逻辑与双量化上近似集,有
证明:由定义3.2.1并结合定理3.1.1的证明过程易证。
由定理3.2.1可知,对象
属于“逻辑或”双量化悲观多粒度上近似集时,意味着至少存在一个粒度
使得
,且至少存在一个粒度
使得
成立,其中粒度
和
无关。
定理3.2.2. 设
为一个信息系统,若
,
,
为非负常数,对任意的
,则关于“逻辑或”双量化悲观多粒度近似算子有如下性质成立。
1)
2)
3)
4)
5)
6)
7) 若
,则
,
8) 若
,则
,
证明:可参照定理3.1.2的证明过程。
4. 案例分析
例4.1. 设
为一个信息系统,表示某地产公司项目投资的示例,数据采集如表1所示。其中,对象集
表示被考察项目集合,属性集
表示项目指标集,分别指医疗环境、交通环境、地域环境以及人文环境。
设
,
,
表示三个不同粒度,则该信息系统关于这三个不同的粒度得到划分如下:
设
,则集合
在粒度
下与
的关系如表2所示。
不妨取
,
,根据定义3.1.1和定义3.2.1所定义的两个双量化多粒度粗糙集模型,以及表2中的数据我们可以分别得到“逻辑或”双量化乐观多粒度粗糙集近似为:

Table 1. A real estate investment information system
表1. 某地产投资信息系统

Table 2. The structure of information systems in granularity A i ( i = 1 , 2 , 3 )
表2. 信息系统在粒度
下的结构
同理可以得到,“逻辑或”双量化悲观多粒度粗糙集近似为:
不难发现两个模型所得到的近似集是不一致的,而近似集在粗糙集理论中作为知识发现的基础,在实际应用中我们可以根据不同的需求选取不同参数
和
,以及不同的双量化粗糙集模型,利用这个案例我们还可以对模型的其他性质进行验证。在以后的研究中,我们将在本文研究的粗糙集模型性质的基础上,研究属性约减以及规则提取等。
5. 结束语
多粒度近似空间作为经典近似空间的自然延拓,具有更强的数据描述能力,基于多粒度粗糙集理论的数据挖掘也具有突出的理论价值和现实意义。本文在多粒度近似空间中,基于“逻辑或”算子将用于刻画相对信息量化和绝对信息量化的变精度粗糙集和程度集融合起来,建立了“逻辑或”双量化多粒度粗糙集模型,对模型的一些基本数学性质进行了细致的讨论。本研究对于多粒度近似空间中,允许某个误差程度的粗糙集建模,有一定的参考价值,接下来我们将研究多粒度近似空间中双量化多粒度粗糙集模型在实际中的应用。
基金项目
本文获重庆市科委基础学科与前沿技术研究基金(No. cstc2015jcyjBX0127),重庆市教委科学技术研究基金(Nos. KJ1500922, KJ1605201)支助。