1. 引言
粗糙集理论是1982年波兰数学家Palawk [1] 第一次提出来的,是处理不确定性和不完整性数据的数学工具,在很多领域如人工智能、数据挖掘、医疗分析、模式识别等中应用广泛。此后,很多学者提出并研究了各种粗糙集模型,如Yao [2] 等将贝叶斯决策理论引入概率粗糙集模型,提出了决策粗糙集模型和三支决策 [3],给出了概率阈值
的最佳值求解方法。经典粗糙集只能处理名义型数据,其思想是根据不可分辨关系划分等价类,确定上下近似。但实际应用中,大部分数据是数值型数据,应用这种数据时首先要对原始数据进行离散化处理,在处理过程中必定造成信息丢失,从而文 [4] 提出了一种基于邻域关系的邻域粗糙集模型,文 [5] 提出了一种基于邻域的决策理论粗糙集模型。鉴于由二元关系导出的粗糙集模型,它的上、下近似是由预先计算的信息粒所构成,其中信息粒用来近似一个目标概念,计算时这些信息粒必须遍历给定论域中的所有对象。因此这种计算方法时间复杂度高,不能满足大数据高效计算的要求,从而文 [6] 提出了局部粗糙集的理论框架,文 [7] 提出局部邻域粗糙集。本文在文 [7] 的基础上讨论了系统的协调性,将不协调集思想引入邻域半径,证明它缩小了邻域半径的取值范围,这为计算局部邻域决策粗糙集的邻域半径提供了有效的工具。文章结构如下,第一部分回顾局部粗糙集、邻域半径、局部邻域决策的一些基本概念。第二部分给出基于局部邻域的协调决策系统。第三部分,讨论基于局部邻域的不协调决策系统。第四部分是总结和后期工作。
2. 基础知识
定义1 [4] [8] [9] 假设信息系统
的属性集为A所有属性的值域
,
,
,
,
,
,x在属性集B上的
-邻域定义为
其中,
表示任意对象之间的欧氏距离。
定义2 [4] [10] 设信息系统
,
,
,x在属性集B上对X的粗糙隶属度
定义为
其中
表示分类的条件概率,
表示集合中元素的个数。
定义3 [11] 假设
为一个信息系统,
,
,则属性集B下X关于
-邻域的局部粗糙集上下近似集分别定义为
属性集B下X关于
-邻域的局部粗糙集的正域、负域和边界域分别定义为
定义4 [11] 设信息系统
的条件属性C,决策属性为D,
,
则属性集B下X关于
-邻域的局部决策粗糙集上下近似集分别定义为
正域、负域和边界域分别定义为
决策粗糙集有两种状态,所有属于X的对象集X和所有不属于X的对象集
,用
表示。
定义5 [12] [13] 设信息系统
的条件属性C,决策属性为D,若
,
,则称
为协调决策信息系统。
定义6 [14] 设信息系统
的条件属性C,决策属性为D,若
,
,则称
为不协调决策信息系统。
设
,
,则
上的概率分布函数记为
进一步记
称
是不确定性命题规则“若
,则
“的可信度,记为
定义7 [14] 设
为一个不协调决策信息系统,
。
1) 若
,有
,则称B是分布协调集。若B是分布协调集且B的任何真子集都不是分布协调集,则称B为分布约简集。
2) 若
,有
,则称B是最大分布协调集。若B是最大分布协调集且B的任何真子集都不是最大分布协调集,称B为最大分布约简集。
定义8 [14] 设
为一个不协调决策信息系统,
。
1) 若
,则B称下近似协调集。如果下近似协调集B任何子集都不是它的下近似协调集,那么B称下近似约简集。
2) 若
,则B称上近似协调集。如果上近似协调集B的任何子集都不是它的上近似协调集,那么B称上近似约简集。
3. 局部邻域粗糙集的协调性
这部分,首先用一个例子来说明系统的协调性,以及如何把一个不协调决策信息系统转化为协调的。
例1 设表1为一个不协调决策信息系统,U为有限论域,
,条件属性集
,决策属性为D。
由定义5知若决策系统协调,则
,
,即
。
当
时,
。当
时,
。因此当
时,
。按照上述方法有
时,
。
时,
。
时,
。
时,
。
时,
。
时,
。
时,
。
时,
。
令
。则有
。也就是说,当
时,此系统转化为协调的。
命题1 设
为一个信息系统,当邻域半径的取值范围为
时,这里
,则此系统是协调的。
证明:反证法。设
为协调系统,取
,则总能找到一个
,使得
满足
,则
。由定义6知与假设矛盾,命题1得证。
设X为不可定义集,属性
下X关于
-邻域的局部邻域决策粗糙集上下近似不相等,取
,这里
,则系统变成协调的,有当
时,由局部性得到
当
时,由局部性得到
从而属性集C下
关于
-邻域的局部决策粗糙集上下近似集分别为
命题2 设
为一个协调决策信息系统,
,邻域半径的取值范围为
。则
,
是可定义集。
证明:设
为一个协调决策信息系统,若
,则存在
,
且
,从而有
,
,这与假设矛盾,命题2得证。
性质1 设
为一个协调决策信息系统,
,
,
,
。下列等式成立
1)
2)
3)
4)
证明:由命题2知,
,从而上述4条性质容易得正。
4. 局部邻域粗糙集的属性约简
在基于局部邻域的协调系统中,集合
是可定义的,在基于局部邻域的不协调信息系统中,
是不可定义的和粗糙的,因此我们只考虑系统为不协调的情况。
性质2 设
为一个不协调信息系统,
,
。下列等式成立
1)
2)
3)
4)
5) 当
时,
证明:1) 设
,由定义2有
,
。
2) 设
由定义2有
,则
同样
。
3) 设
,
,
,则
。
4) 设
,
,
,则
。另外,
5) 设
,
,
,由定义3有
,
,则
。另外,
,由定义3有
,
,则
性质3 设
为一个不协调决策信息系统,
,
,
,下列等式成立
1)
2)
3)
4)
证明:由定义4的局部性,1)和2)很容易得证。
3) 设
,
,
,
,且
,
4) 设
,
,
,
,
。
在性质3中性质2的第5条不成立,因此,我们给出下面的推论。
推论1 设
,当
时,
存在着一个正整数n,使得
为x的最佳邻域半径。
证明:设
,当
。则有
,使得
,这说明当
时,
与X具有的共同元素不会随着
的增大而增多,反而
。从而正域中的元素越来越少,这不利于处理数据的效果,因此,
为x的最佳邻域半径。
任何信息系统按照邻域半径取值范围的不同而可分为协调的部分和不协调的部分。原邻域半径的取值为
从上面的命题发现,当
时,可定义的,也就是说边界域为空集,从而我们需要重点研究不可定义的部分,也就是边界域为非空的尽可能把它变小。
例2 某单位选高管时,为把德才兼备的人才提拔到领导岗位上,制定了5个标准。
——政策水平,
——工作作风,
——业务能力,
——口才,
——近十年的请假次数,d——是否适合当选高管。现有7个目标,即
。先给7位候选人按照5项指标进行打分,打分情况如表2~5。表2为信息系统,
,
。
均为效益型,则用公式
,
为成本型,则用公式
[15] 从而得到规范矩阵
,如表6~9。
最后我们用平均法,
其中i代表评委,j代表目标,t为条件属性。比如
也就是说目标概念
在条件属性
下的值取所有表
中对应值的平均值。由此得到下列的表R如表10。
当
时,此系统为协调的。
是可定义的。
当
时,此系统为不协调的,
是不可定义的。因此,设
,
(
在
中取值),
则
,由定义9(1)知B是分布协调集,它的任何子集都不是它的分布协调集。因此B是分布约简集。同理B还是最大分布约简集。由于局部性,取
则有
B的任何子集都不是它的上(下)近似协调集。因此B是上(下)近似约简集。
命题3 对于信息系统
,若邻域半径在
内取值时,则它不协调,这里
。
证明:设
为不协调信息系统且邻域半径
,则由命题1得,存在一个
,从而S为协调的,与假设矛盾。因此
。
5. 总结
在局部邻域粗糙集中邻域半径的取值范围过大而找到最佳邻域半径有所困难,因此本文研究了协调系统下的局部邻域粗糙集和不协调系统的局部邻域粗糙集及属性约简,借助邻域信息系统的协调性,发现任何一个邻域信息系统都可分为协调的部分和不协调的部分,用这种方法缩小了邻域半径的取值范围,为计算最佳邻域半径提供了方法。后期继续研究乐观和悲观下的邻域半径及属性约简。
基金项目
青海民族大学研究生创新项目(项目编号:07M2021005)。
NOTES
*通讯作者。