尽管聚类分析和关联规则作为两个主要应用方法都可以实现数据挖掘功能,但两者存在三大差异,聚类的数据类型为连续型,关联规则为离散型;聚类体现挖掘的描述功能,关联规则体现预测/验证功能;聚类的输出形式为类簇,关联规则输出的是规则。两者同时具有一定的互补性。因此,本文将两者结合起来,先对样本集进行聚类分析,使样本实体获得各自的类别信息;再对这些带有分类属性的样本进行关联规则挖掘,使得挖掘运算有效降维且具有更好的挖掘目标,挖掘结果可以清晰地显示聚类形成的原因和聚类之间的关系等潜在知识。实验表明,本文介绍的联合挖掘技术可以取得更好的挖掘效果,具有很大的实用价值。 Although clustering analysis and association rules as two main application methods can achieve data mining, but both two methods have three different. The data type of clustering operation is continuous and association rules are discrete. Clustering reflects the description function of the mining and association rules reflect prediction/validation function. The output form of clustering is clusters, and association rules then output the lines of rule. At the same time, both of them have some complementary to each other. So, this paper combined the both methods. The clustering analysis for the set of samples was first executed. This processing will make samples for their respective category entity information. Then, run association rules mining according to the samples what with classification properties. The method show the potential knowledge further including causes of the formation of clustering and the relationship between clusters. The experiment shows that the mining technology has better effect and great value of application.
李涵,张东生*
河南大学软件学院,河南 开封
收稿日期:2017年11月9日;录用日期:2017年11月21日;发布日期:2017年11月30日
尽管聚类分析和关联规则作为两个主要应用方法都可以实现数据挖掘功能,但两者存在三大差异,聚类的数据类型为连续型,关联规则为离散型;聚类体现挖掘的描述功能,关联规则体现预测/验证功能;聚类的输出形式为类簇,关联规则输出的是规则。两者同时具有一定的互补性。因此,本文将两者结合起来,先对样本集进行聚类分析,使样本实体获得各自的类别信息;再对这些带有分类属性的样本进行关联规则挖掘,使得挖掘运算有效降维且具有更好的挖掘目标,挖掘结果可以清晰地显示聚类形成的原因和聚类之间的关系等潜在知识。实验表明,本文介绍的联合挖掘技术可以取得更好的挖掘效果,具有很大的实用价值。
关键词 :聚类,关联规则,数据挖掘,机器学习
Copyright © 2017 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策者有潜在价值的知识和规则 [
聚类分析是研究数据之间物理的或逻辑的相互关系的技术,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类簇。聚类分析的结果可以揭示数据之间的内在联系与区别,发现数据库中分布的一些深层的信息与知识,进一步研究,可以概括出每一类的主要特征。也可以把着眼点放在某些特定的类上进行进一步的分析 [
关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则挖掘就是为了在数据集中发现这些关联关系,是数据挖掘技术中最先提出的问题之一,也是数据挖掘的一个主要研究方向。关联规则由Agrawal、Imielinski和Swami在1993年提出 [
聚类分析和关联规则是数据挖掘中两个非常重要且具有各自代表性的典型方法——聚类分析主要实现数据挖掘的描述功能;而关联规则主要实现数据挖掘的预测/验证功能。
聚类分析是一种寻求数据的自然聚集结构的重要方法,增强了人们对客观现象的认识。聚类应用的意义,主要表现在处理大量的、繁杂的、属性众多且没有类标志的数据。这些没有类标志的数据经过聚类处理后,将根据其内在特征的相似性,自动聚集为若干类簇,类内对象相似度较大,而类间对象相似度较小。
聚类分析的基本方法是,同类样本的离差平方和应当较小,而类之间的离差平方和应当较大。假定已经将n个样本分成了k个类 C 1 , C 2 , ⋯ , C k ,用xit表示Ct中的第i个样本的特征值向量,nt表示类Ct中的样本个数, x ¯ t 表示Ct的重心,则Ct中样本的离差平方和为:
S t = ∑ i = 1 n t ( x i t − x ¯ t ) ′ ( x i t − x ¯ t )
全部类内离差平方和为:
S = ∑ t = 1 k S t = ∑ t = 1 k ∑ i = 1 n ( x i t − x ¯ t ) ′ ( x i t − x ¯ t )
当n很大时,要给出全部样本所有可能的聚类,并从中选择出使S达到极小的聚类方案是极其困难的。于是,Ward提出了这种聚类方法,采用离差平方和法,样本之间的距离采用欧氏距离法 [
聚类结果是使数据挖掘具备识别群功能。
关联规则是描述数据库中数据项之间存在潜在关系的规则。设 I = { i 1 , i 2 , ⋯ , i n } 为全体数据项集合,则关联规则可以形式化定义为: X ⇒ Y ,其中 X ⊆ I , Y ⊆ I ,且 X ∩ Y = ∅ 。项集之间的关联表示:如果X出现在一条交易中,则Y在这条交易中同时出现的可能性比较高。
“可能性比较高”的界定方法,则采用支持度和置信度来表述:
规则 X ⇒ Y 的支持度定义为X和Y同时出现的可能性,表示为 Pr ( X ∪ Y ) ;规则 X ⇒ Y 的置信度定义为全体事务集D中包含X的同时也包含Y的可能性,表示为 Pr ( X ∪ Y ) / Pr ( X ) 。当支持度和置信度的值都大于给定的相应阈值时的规则称为关联规则 [
下面给出关联规则的基本算法Apriori的伪代码 [
L[
for (k=2; L[k-1]≠Φ; k=k+1) do
C[k]=apriori_gen(L[k-1]); //构造候选项集
for all transactions t∈D do
C[t]=subset(C[k], t);
//搜索事务t中包含的候选项集
for all C∈C[t] do C.sup=C.sup+1; end for
//计算支持数
end for
L[k]={ C∈C[k] | C.sup>=minsup};
//得到K阶大项集
end for
L=U[k] L[k];
其中候选项集的生成是Apriori算法的核心,通过Apriori_gen函数运算实现。描述如下:
insert into C[k]
select P[
from L[k − 1] P, L[k − 1] Q
where P[
对构造的候选项集进行削减:如果k阶候选项集C的某个k-1阶子集不中L[k − 1]中,那么C就不可能是大项集,需要将其从候选项集C[k]中删除。
for all itemsets C Î C[k] do
for all (k − 1) itemsets S of C do
if (SÏL[k − 1]) then delete C from C[k]
关联规则可以发现聚类之间的关系,挖掘出样本和聚类之间的关联规则和潜在知识。
一般地,聚类分析中,样本的属性值是连续型的;而关联规则挖掘中样本的属性值是离散型的。二者对样本数据的处理方法和分析结果的输出形式有很大差异性和互补性。表1对本文所采用的两种聚类方法和一种关联规则方法进行了比较。
从表中容易发现,将聚类分析与关联规则结合起来,可以取得更好的挖掘效果,后面的实验完全证明了这一点。
二者联合运用的具体方法是,先对样本集进行聚类分析,通过聚类把整个样本集分成不同子集,使样本实体获得各自的类别信息;再对这些带有分类属性的样本进行关联规则挖掘,使得挖掘运算有效降维且具有更好的挖掘目标。
用于编程实验的数据来自河南大学本科生的某次考试(http://218.196.195.205/admin/ks/ vbks.asp)。试卷包括4个大题(题号分别以A、B、C、D标识),每题满分25分,卷面分值100分。全体考生平均成绩77.9分,符合正态分布。不失一般性,本文实验中随机抽出得分比较接近均值的100名考生的考试数据进行挖掘分析。样本数据参见表2。
方 法 | 适合任务 | 适合数据 | 可理解性 | ||
---|---|---|---|---|---|
神经网络 | 聚类,分类 | 连续 | 差 | ||
模糊聚类 | 聚类 | 连续 | 中 | ||
关联规则 | 关联 | 离散 | 好 | ||
表1. 聚类与关联规则功能对比
学号 | A题 | B题 | C题 | D题 | 总分 | |||
---|---|---|---|---|---|---|---|---|
01 | 16 | 21 | 23 | 19 | 79 | |||
02 | 19 | 20 | 17 | 22 | 78 | |||
03 | 22 | 17 | 21 | 16 | 76 | |||
⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋮ | |||
99 | 14 | 24 | 20 | 22 | 80 | |||
100 | 22 | 20 | 19 | 18 | 79 | |||
表2. 样本数据
先将样本数据整理成便于聚类的形式,例如,将原始数据中比较复杂的学号和题号替换为容易运算的符号,然后进行标准化变换。本文使用了离差变换和标准差变换 [
对变换后的样本数据分别进行模糊聚类和自组织神经网络聚类,然后运用F检验,自动取得最佳聚类方案 [
经过3.3所述的聚类分析之后,再对已具备类别(图1中最右列)的样本数据进行关联规则挖掘分析,将使挖掘运算更为方便,且规则指向性更明确、更容易理解。
本文采用改进的Apriori算法进行关联规则分析,输出相应的关联规则,参见图2。
聚类结果将100个考生样本分为5类,其中第1类23个,第2类22个,第3类4个,第4类19个,第5类32个。通过表3的比较,大致可以了解每类的主要特征。
图1. 聚类分析图
图2. 聚类后进行的关联规则数据挖掘结果
类号 | A题均值 | B题均值 | C题均值 | D题均值 | 4题均值 |
---|---|---|---|---|---|
1 | 19.74 | 19.09 | 16.17 | 21.13 | 19.03 |
2 | 20.68 | 15.86 | 20.05 | 19.00 | 18.90 |
3 | 18.36 | 18.64 | 20.55 | 20.82 | 19.59 |
4 | 19.79 | 20.95 | 20.05 | 15.89 | 19.17 |
5 | 15.72 | 21.68 | 19.48 | 20.00 | 19.22 |
表3. 样本数据聚类结果分析
根据表中数据容易发现,第1类考生C题得分较低;第2类考生B题得分较低;第3类考生四个题得分均匀;第4类考生D题得分较低;第5类考生A题得分较低。但这只是对聚类意义的大致解读,缺乏准确和全面的理解。
与文献 [
基于聚类的关联规则挖掘分析,则将在聚类的基础上得出一系列更为明确和直接的分析结果。例如,在图2中,挖掘结果的前4条规则就明确给出了如下关联规则:
ques-B = 14.8-16. 7 ==> Clust = clust-2
Clust = clust-2 ==> Teacher = D6203
其意义解释为:
第B题得分介于14.8~16.7 (偏低)的考生,被归入“clust-2”类;而“clust-2”类的任课教师是编号为“D6203”的老师。
这一规则明确提示我们,编号为“D6203”的教师在第B题的教学方面存在明显问题,需要改正。
如果继续使用关联规则对相关数据集进行挖掘,可能找出“D6203”老师在B题教学方面存在问题的原因,从而为督促该教师改善和提高教学效果提供有力的技术依据与支撑。
同时,由于关联规则挖掘是在样本取得聚类的基础上进行的,因此,不仅使得挖掘得到有效降维,降低了计算复杂性,而且挖掘的目标更为明确,所挖掘到的规则直接关联具体的类别,其指示意义更为明显和直接。这是不进行聚类分析而直接使用关联规则所不得达到的。
按照传统和粗放的考试成绩分析方法,本文所分析的100位考生应属于同一类(成绩都接近均值),但聚类分析却可以通过每个样本属性的特征值,更加深刻和准确地根据每个考生知识点和能力点掌握情况的差异之处,并将其划分为若干类,为进一步挖掘类之间的关系打下基础;而在聚类之后进行的关联规则挖掘,则更进一步发现了聚类形成的原因和聚类之间的关系等潜在的知识。聚类分析和关联规则的联合运用取得了更好的挖掘效果。本文所述实验大部分已经过多个大样本集的实际挖掘应用,实践证明,聚类分析与关联规则联合挖掘技术具有稳定有效的应用价值和非常广阔的应用前景,值得进一步研究推广。
感谢河南省教师教育课程改革研究项目(2017)的资助。
李涵,张东生. 聚类联合关联规则的数据挖掘技术The Combining Technology of Data Mining Based on Clustering and Association Rules[J]. 运筹与模糊学, 2017, 07(04): 170-176. http://dx.doi.org/10.12677/ORF.2017.74018
https://doi.org/10.1109/69.250074
https://doi.org/10.1109/ICDE.1995.380415
https://doi.org/10.1109/ICINDMA.2010.5538274