Research on the Value Domains of Several Interest Measures in Association Rule Mining
This article aims to study the value domains problem of several interest metrics in association rule mining. Firstly, a detailed introduction was given to the definitions of five interest measures involved in the process of association rule mining, including support, confidence, conviction, lift, and Laplace measures. These measures were explained and illustrated through specific examples. Then, the value domains of these five interest measures were explored in depth, and their value situations were given in two scenarios: limited database size and near infinite database size. In addition, this article also provides a detailed discussion on the values at the interval endpoints of these interest measures, pointing out the differences and reasons from other research results, and providing a more comprehensive and accurate measurement tool for association rule mining through rigorous mathematical proof and comparative analysis.
Association Rule Mining
兴趣度量是关联规则挖掘过程中必不可少的一部分,不论是传统的基于支持度构建的兴趣度量,还是在模糊关联规则和高效用项集挖掘过程中基于推广的支持度的兴趣度量,它们都为删除冗余关联规则和挖掘感兴趣的关联规则发挥了极大的作用
在众多的兴趣度量中,支持度、置信度、提升度、确信度、Laplace测度是公认的挖掘强关联规则最常用的兴趣度量,这些兴趣度量也被应用到工业、金融等领域的各种各样问题中
本节将本文涉及到的定义进行数学描述,方便关联规则挖掘算法以及本文后续所提定理的证明中使用。共涉及13个定义,包括:项集、事务标识符集、事务、和数据库表示这四种基础名词定义;两种映射函数的描述;五种兴趣度量计算方法与数学表达式。同时将根据一个较为简单的数据集D进行举例便于更直观的理解这些定义,假设数据集D包括6次的交易数据,每种交易物品用一个英文字母表示,每次交易的内容分别表示为:“交易1:{a, b, d, e};交易2:{b, c, e};交易3:{a, b, d, e};交易4:{a, b, c, e};交易5:{a, b, c, d, e};交易6:{b, c, d}”
定义1 (项集)
根据上述给出的数据集,可以看出共有5种交易物品,分别是:“a, b, c, d, e”。那么集合 ,它的任意一个子集都可以称为一个项集,比如 是一个一项集, 是一个二项集, 是一个三项集。
定义2 (事务标识符集)
事务标识符集是由一系列的事务标识符构成,以数据集D为例,一个事务标识符可以是一个购物清单的编号或者是人为给定的一系列不重复序号。那么,事务标识符集就是一个购物清单的编号或者是人为给定的一系列不重复序号的集合。假设将购物清单的编号作为数据集D中的事务标识符,则有 ,即事务标识符集 。
定义3 (事务)
以数据库D为例,每一条交易可认为是一条事务,即 , , , , , ,这6条交易,总共6个事务。
定义4 (数据库表示)
利用定义1~3的名词解释可以将一个数据集进行数据库表示。将数据集D进行事务数据库表示的过程,就是将定义3中所给出的所有事务进行二维表格展示,如
事务标识符 |
交易物品 |
1 |
|
2 |
|
3 |
|
4 |
|
5 |
|
6 |
|
定义5 (项集函数)
.
其中,对于一个集合X, 表示X的幂集; ,且 是事务标识符集T中所有事务的公共项的集合。
项集函数 是事务标识符集T中每个事务标识符 包含的公共项的集合。例如: , , , 。这里的函数自变量没有采用集合的形式书写主要是为了书写方便以及形式上的美观,实际应该型如: , , , ……下方标识符集函数的书写同样遵循这种规则。
定义6 (标识符集函数)
.
标识符集函数 是由一系列事务标识符所构成的集合,这些事务标识符需要满足以下条件,即其对应的项集应包含项集X中所有的项。例如: , , ……
定义7 (支持度)
,(1)
,
其中, 表示D中事务个数。
这个定义中其实发生了X的定义转换, 与 中的X其实一个是项集另一个是随机事件。如果 中的X用 表示,那么定义应该按照以下方式进行书写:
假设随机事件 表示“项集X中的所有元素共同出现”,那么 。为了便于书写将 与X全部书写为X。
假设
,那么
,也就是X的支持度是包含X中的每个项出现的联合概率
。从
定义8 (置信度)
(2)
定义9 (提升度)
(3)
定义10 (确信度)
(4)
定义11 (拉普拉斯测度)
(5)
置信度、提升度、确信度以及拉普拉斯测度都是在支持度的基础上,利用前项、后项、前项后项共现以及它们对立事件的支持度进行计算的。
以关联规则 为例计算上述四个兴趣度量,首先需要计算项集 , 和关联规则 的支持度,经计算 , , 。 进而再计算这四个兴趣度量,根据公式(2)~公式(5)计算得到:
,
,
,
.
本节将给出五种兴趣度量值域,同时还罗列出不同文章所给出的值域并在
定理1 (支持度的值域)设数据库的大小 等于N,项集X在数据库D中出现的次数为 ,项集XY在数据库D中出现的次数为 。那么支持度的值域为: , 。
证明:
因为 ,所以根据支持度定义(1)有 。
同理。
定理2 (置信度的值域)设数据库的大小 等于N。那么置信度的值域为: 。
证明:
由置信度定义(2)可知 。又因为 ,所以 。
定理3 (确信度的值域)设数据库的大小 等于N,且 , , , ,那么确信度的值域为: ,当 时 。
证明:
为了书写清晰,不妨设 , , ,其中 , 为常数, 为变量。
因为 是项集X与Y的联合概率,所以可以确定 的取值范围为:
.(6)
首先根据确信度的定义(4)可知计算式为:
.
然后确定 的连续性与单调性。
1) 连续性
存在一个间断点为 处。
2) 单调性
为了确定单调性,对 求一阶导数:
.
因为 , ,所以在区间 和 上 ,因此 在间断点两侧分别是关于 的单调递增函数。
根据公式(6)可以知道 ,结合公式(7),那么 的取值范围就是:
.(8)
3) 考虑 的最小值
因为 可以得到:
.(9)
4) 考虑 的最大值
① 当 时, 。
② 当 时, 。显然当 与 非常接近时此式趋于无穷。
因此可以得到:
.(10)
将公式(9),(10)代入到公式(8)中可以得到 的值域为:
.
注(假设条件的解释):当 或 时,并不能根据数据判断出X对Y的影响。当 或 时,同理。因此提出 , , , 的假设。
定理4 (提升度的值域)设数据库的大小 等于N,且 , , , , ,那么提升度的值域为: ,当 , 。
证明:
为了书写清晰,不妨设 , , ,其中 为常数 为变量。因为 是项集X与Y的联合概率,所以可以确定 的取值范围为:
.(11)
根据提升度的定义(3)可知计算式为:
. (12)
显然是关于 的连续单调递增函数。根据公式(11)和公式(12)可知 的取值范围就是:
.(13)
因为 , ,所以
.(14)
将公式(14)代入公式(13)中得到提升度的值域为:
.
定理5 (Laplace测度的值域)设数据库的大小 等于N,且 , , , 。那么Laplace测度的值域为: ,当 , 。
证明:
为了书写清晰,不妨设 , , ,其中 为常数 为变量。因为 是项集X与Y的联合概率,所以可以确定 的取值范围为:
. (15)
根据 的定义(5)可知计算式为:
.(16)
显然是关于 的连续单调递增函数。根据公式(15)以及公式(16),可知 的取值范围就是:
.(17)
1) 考虑 的最小值:
因为 ,所以可以得到:
. (18)
2) 考虑 的最大值:
① 当 时, ,要使 达到最大,即使 取得最大,即 ,此时 。
② 当 时, ,因为 ,所以 ,即 。
综合①,②所述,可以得到:
.(19)
将公式(18),(19)代入到公式(17)中可以得到 的值域为:
.
将定理1~定理5所给出的不同兴趣度量值域与另外两位作者的文章所给出的值域进行综合展示,如
兴趣度量 |
P.J. Azevedo and A.M. Jorge
|
P. Lenca, P. Meyer等
|
本文 |
||
已知 |
未知 |
||||
支持度 |
|
---- |
---- |
---- |
|
|
---- |
|
---- |
|
|
置信度 |
|
|
---- |
---- |
|
|
---- |
|
---- |
|
|
确信度 |
|
|
---- |
---- |
|
|
---- |
|
|
|
|
提升度 |
|
|
---- |
---- |
|
|
---- |
|
|
|
|
Laplace |
|
|
---- |
---- |
|
|
---- |
|
|
|
注:表中N表示某一数据库实际包含事务个数; 表示数据库D中包含项集X的事务个数,也就是项集X在数据库中出现的次数, 表示数据库D中包含项集Y的事务个数,即项集Y在数据库中出现的次数; 表示项集Y在数据库中没有出现的次数,也就是数据库实际包含事务个数减去项集Y在数据库中出现的次数,即 。
从
蓝色部分是与P. Lenca, P. Meyer等人
本文从关联规则中的各种兴趣度量入手,研究了兴趣度量的值域,综合多方面考量给出了支持度、置信度、确信度、提升度与Laplace测度这五种兴趣度量在数据库大小是否接近无穷的两种情况下的值域以及严谨的数学证明过程,并且还与另外两篇文章所给出的兴趣度量的值域作对比,并且解释了出现差别的原因。综上所述,本文通过严谨的数学证明和综合分析,深入探讨了支持度、置信度、确信度、提升度与Laplace测度在不同数据库大小条件下的值域,提供了更为全面和准确的值域证明,弥补了以往研究中的不足之处。此外,不仅为关联规则研究提供了坚实的理论基础,也为实际应用中的规则评估提供了有力的支持。
*共第一作者。