Exploration of the Relationship between Interest Measures Lift and Conviction in Association Rule Analysis and Education Data Validation
Association rule analysis is one of the most active research methods in data mining. In the process of finding association relationships, interest measures are the theoretical basis and can measure the significance of rules, where Lift and Conviction are widely used in data analyses to find association rules. This paper studies these two measures. First, it is proven that when the Consequent is fixed, the value of Conviction increases monotonically with the value of Lift, and Conviction is a convex function of Lift. Second, when Confidence is fixed, the value of Conviction increases monotonically with the value of Lift, and Conviction is a concave function of Lift. Then, integrating the above two aspects, we obtain an important conclusion: when the Consequent remains fixed or when the Confidence value is fixed, the rules selected by Conviction are the same as those selected by Lift. Finally, the theorems and the corresponding conclusion are verified by using the achievement data of three grades of mathematics major in a university.
Association Rule Analysis
关联规则挖掘
当前的关联规则挖掘主要在Support-Confidence框架下进行。然而,仅使用支持度和置信度进行挖掘通常无法满足研究人员的需求。因此,在关联规则挖掘过程中,学者们经常增加使用提升度、确信度等兴趣度量,或者构建新的兴趣度量来挖掘自己感兴趣的规则。但是,几乎所有的兴趣度量都是基于前件的支持度、后件的支持度、前件和后件共现的支持度以及对立事件的支持度来计算的
事实上,如果能够探索不同兴趣度量之间的关系,特别是在特定条件下一种度量是否可以被另一种度量取代,将对研究人员在关联规则挖掘中起到有效的指导作用,并帮助他们减少挖掘关联规则时需要考虑的兴趣度量,从而降低了难度。因此,本研究的目的是探索兴趣度量之间的关系,为关联规则挖掘领域提供一种更清晰可行的方法,帮助研究人员在众多兴趣度量中选择最合适的度量,使挖掘过程更高效,并使关联规则挖掘广泛应用于不同领域和场景。
在许多兴趣度量中,文献
通过研究,我们发现在一定条件下,提升度和确信度在关联规则挖掘中可以替代使用。主要贡献为:1) 在置信值或后项集固定的情况下,发现了确信度和提升度之间的两个函数关系,一个是凸函数,另一个是凹函数,并且在这两个函数中,确信度都随提升度单调增加;并得出结论:在固定置信度或后项集的情况下,通过确信度筛选的关联规则与通过提升度筛选的关联规则是相同的。2) 通过教育数据和开放数据中的关联规则分析严格验证了确信度和提升度的函数关系以及相应的结论。
关联规则分析里经典的算法是Apriori算法,使用一些规则挖掘某些事物发生的是否频繁发生,或者某件事情X的发生是否能够引起另外一件事情Y的频繁发生,这里的X叫前件(Antecedent)、Y叫后件(Consequent)。在分析前件和后件关系的过程中,关联规则的兴趣度量用于衡量一条规则是否准确地显示了数据集中包含的规律,其中,支持度(Support)、置信度(Confidence)、提升度(Lift)和确信度(Conviction)是常见的度量方式
定义1 (项集函数)
其中,对于一个集合X, 表示X的幂集; ,且 是事务标识符集T中所有事务的公共项的集合。
定义2 (标识符集函数)
.
定义3 (支持度)
,
,
其中, 表示D中事务个数。
这个定义中其实发生了X的定义转换, 与 中的X其实一个是项集另一个是随机事件。如果 中的X用 表示,那么定义应该按照以下方式进行书写:
假设随机事件 表示“项集X中的所有元素共同出现”,那么 。为了便于书写将 与X全部书写为X。
假设 ,那么 ,也就是X的支持度是包含X中的每个项出现的联合概率 。
定义4 (置信度)
(1)
定义5 (提升度)
(2)
定义6 (确信度)
(3)
理解1:Lift是一种双向关系,很多文献里关于它的定义都型如定义(5)那样,实际上,还可以写成如下这种形式:
,或者: 。
这是因为提升度不但表达了 ,也表达了 ,是X和Y之间双向关系的展现。
理解2:这里的Conviction有人叫它“出错率”或者“错误率”
理解3:Lift实际上,就是看X里Y发生的概率,以及整体里Y发生的概率,Lift就是这两个概率的比,
如果前面概率值大于后面概率值,Lift就大于1,说明X的发生、提升了Y的发生;如果前面概率值小于后面概率值,说明X的发生没有提升Y的发生、或者反方向提升了、实际是降低了Y的发生;如果两个概率值相等,则说明X的发生对Y的发生既没有正方向提升、也没有反方向提升。文献
看成一个增量,这个增量就能体现X的出现对Y的出现提升了多少。
理解4:Conviction确信度里“确信”的意思。根据公式(3),分子1-P(Y)表示Y不在总体里发生的概率,分母1 − P(XY)/P(X)表示Y不在X里发生的概率,如果前者概率值大于后面概率值,说明Y在整体里不发生的情况多于Y在X里不发生的情况,相当于X的出现“确信”了Y的出现;如果前面概率值小于后面概率值,就说明Y在总体里不发生的情况少于Y在X里不发生的情况,相当于X的出现“确信”了Y的不出现,即反向“确信”了Y的出现。
本节针对如何在错综复杂的兴趣度量中选取适用的兴趣度量进行关联规则挖掘这一问题进行深入探讨。在固定后项和固定置信度这两种不同条件的实际情况下,给出了关于提升度和确信度间的关系。
定理1 设后项(Consequent)不变,即 ,c是常数,则确信度随提升度单调增加,且Conviction (Lift)是一个凸函数。
证明:
将 的分子分母同时乘以 ,得到:
.(4)
将Lift的定义公式(2)进行变形,可以得到:
.(5)
然后将公式(5)代入公式(4)中即可得到:
.(6)
又因为 ,因此可以将公式(6)化简称为:
.(7)
首先确定t的取值范围,根据提升度的取值范围可知 ,又因为存在间断点: ,所以t的取值范围是: 或者 。这两个区间段都处于间断点的左侧,因此在后续求单调性与凹凸性的时候只考虑间断点左侧的区间。
然后通过求取 的一阶导数和二阶导数,来判断单调性与凹凸性:
的一阶导数为:
.
因为 ,所以 , ,因此 ,即 为t的单调增函数。
的二阶导数为:
.
因为 ,并且 ,所以 ,即 是t的凸函数。
综上所述,当后项不变时,确信度是提升度的单调增函数,并且函数Conviction (Lift)是一个凸函数。定理证明完毕。
定理2 设置信度是不变的,即 ,c是常数,则确信度随提升度单调增加,且Conviction (Lift)是一个凹函数。
证明:
将Lift的定义公式(2)进行变形:
.(8)
然后将公式(8)代入到确信度定义(3)中,得到:
.(9)
将置信度定义(1)代入到公式(9)中可知:
,(10)
整理公式(10)得到确信度和提升度的函数关系式:
(11)
由定理假设 ,并且将确信度和提升度赋予数学符号为: , 。因此公式(11)可以被表示为: 。
的一阶和二阶导数分别为: , 。由于 , ,因此 , ,即 为t的单调增函数,且是凹函数。
综上所述,当置信度保持不变时,确信度是提升度的单调增函数,并且函数Conviction (Lift)是一个凹函数。定理证明完毕。
通过上面定理1和定理2,得到结论:当Consequent不变或者Confidence不变时,用Lift或者Conviction的值排序筛选出来的规则是相同的。
得到上面的结论,是因为:根据固定的Consequent或者Confidence,一共得到很多条规则,然后把规则根据对应Lift的从小到大排序得到顺序1,也把规则根据对应Conviction从小到大排序到大顺序2,这时候,发现顺序1和顺序2对应的规则完全一致。那么当按照大于或等于某个Lift值取出来规则时,也就是按照对应的Conviction大于或等于另外某个值取出来的规则,所以完全对应。实际上,因为Conviction是Lift的函数,那么当Lift取某个值时,根据函数关系,也能计算出Conviction的一个值,这两个值对应到同一条规则。
本节利用一个私有数据集挖掘关联规则、计算相关兴趣度量取值,验证定理1和定理2。通过实验挖掘到的关联规则计算它们的兴趣度量取值,然后绘制兴趣度量间的折线图验证相关定理。
实验中所使用的私有数据是某大学2016~2018级数学系本科生课程成绩,在后续书写过程中称作“教育数据”。该数据选取了某大学2016~2018三个年级数学大类中“应用统计学”和“信息与计算科学”两个专业共233名学生的所有成绩,该数据的每一行是一个学生的某门课程的一次考试的各种信息,包括:学号、姓名、学制、开课学期、上课院系、班级名称、课程编号、课程名称、总成绩、原始总成绩、成绩标志、课程性质、课程属性、通选课类别、学时、学分、开课单位、考试性质、补重学期,共19项。在本文中主要使用学号、课程名称、总成绩、学分这四列,部分数据如
学号 |
课程名称 |
总成绩 |
学分 |
122****07 |
大学英语(四) |
0 |
3 |
122****07 |
剑桥商务英语(中级) |
83 |
3 |
122****07 |
微积分(上) |
64 |
3 |
122****07 |
管理学 |
0 |
3 |
122****07 |
英语口语(一) |
83 |
2 |
122****07 |
经济法 |
80 |
3 |
122****07 |
思想道德修养与法律基础 |
41 |
3 |
122****07 |
英语口语(二) |
74 |
2 |
122****07 |
计算机技术 |
60 |
3 |
122****07 |
会计学原理(全英) |
88 |
3 |
… |
… |
… |
… |
考虑到原始数据存在:隐私信息未加密、数据格式不匹配、同一门课程多次考试(挂科)、学生在毕业前退学或转专业、同一门课程多学期连续开课等情况,需要对数据进行成绩预处理和基于处理后数据构建独热编码2种操作。
成绩预处理操作如流程
步骤1:计算考试次数。
步骤2:计算成绩权重与核查考试总成绩。
步骤2-1:计算成绩权重。
根据每个学生在某一门课程中的考试次数来确定权重矩阵
。权重的计算公式为
,其中
是学生i在课程j的权重;
是惩罚参数;
是学生i的课程j的考试次数。在这篇文章中,将惩罚参数
的取值设置为0.03。因为每个年级的学生人数不一样,以及每个年级学生选课情况有差异,所以,
的取值范围在每个年级中是不同的,具体如
这里, 是一个惩罚参数,如果通过多次考试获得60分,它用于降低分数,因为,在同一课程中,通过正常期末考试获得60分的学生比通过多次考试得到60分的学生对本门课程中的掌握程度更高,为了区别这两种情况下学生对知识的掌握程度,将后者的60分进行惩罚降低到60分以下。在正常的期末
参数 |
2016级 |
2017级 |
2018级 |
i |
1, 2, 3, …, 94 |
1, 2, 3, …, 77 |
1, 2, 3, …, 62 |
j |
1, 2, 3, …, 191 |
1, 2, 3, …, 197 |
1, 2, 3, …, 168 |
考试中,学生的分数几乎都分布在40~95分之间,但是,挂科的学生经过多次补考后,他们对知识的掌握程度得到了一定的提高,所以课程分数的下限应该有所提高,在50~95分更合适。为了选择合适的惩罚参数,使分数可以在50~95之间分布,我们通过设置 、0.03、0.04进行了实验,发现,当 时几乎所有的分数都分布在50~95,最终选取惩罚参数 。
步骤2-2:核查考试总成绩。
由于这所大学补考成绩规定:① 如果参加某门课程的补考并通过考试的学生将获得最终得分为60分;② 如果一名学生参加了补考,但未能通过这门课程的考试,则他在这门课上的最终成绩应该是他多次考试的多个成绩中的最大值。此外,如果某个学生在某门课程中的考试次数为0,我们认为他没有选择该课程,分数将设置为0。
根据以上规则将每个学生的考试成绩进行核查,根据学生i在课程j的考试成绩 ,构建每个年级的成绩矩阵DataOld,它的每一个分量的计算公式为:
,
其中i,j的取值范围如
步骤3:计算加权成绩。
将权重矩阵与成绩矩阵的对应位置进行乘法运算,得到加权成绩矩阵Data。
步骤4:选择课程与合并多学期连开课程。
由于后续实验中只使用必修课和专业课进行关联规则分析,因此需要对数据中所需的课程进行筛选。
根据这所大学2017级数学大类中的“应用统计学”和“信息与计算科学”专业的培养计划,以及培养计划中对于专业必修课、公共必修课和专业选修课的分类,确定了需要进行分析的课程,如
专业必修课 |
公共必修课 |
专业选修课 |
《高等代数(上)》 |
《安全素养》 |
《数学实验》 |
《高等代数(下)》 |
《大学生心理健康教育》 |
《运筹学》 |
《空间解析几何》 |
《大学英语(一)》 |
《抽样调查》 |
《数学分析(I)》 |
《大学英语(二)》 |
《回归分析》 |
《数学分析(II)》 |
《大学英语(三)》 |
《数学建模》 |
《数学分析(III)》 |
《大学英语(四)》 |
《统计学方法及应用》 |
《常微分方程》 |
《军事理论》 |
《应用随机过程》 |
《离散数学》 |
《军训》 |
|
《数值分析》 |
《身体素质基础训练》 |
|
《程序语言设计》 |
《职业生涯规划》 |
|
《算法与数据结构》 |
《思想政治理论课社会实践》 |
|
《复变函数论》 |
《体育(一)》 |
|
《概率论》 |
《体育(二)》 |
|
《数理统计》 |
《体育(三)》 |
|
《计算机技术》 |
《大学物理(上)》 |
|
《大学物理(下)》 |
||
《大学生就业指导》 |
||
《思想道德修养与法律基础》 |
||
《中国近现代史纲要》 |
||
《马克思主义基本原理》 |
||
《毛泽东思想和中国特色社会主义理论体系概论》 |
合并前课程名称 |
合并后课程名称 |
高等代数(上),高等代数(下) |
高等代数 |
数学分析(I),数学分析(II),数学分析(III) |
数学分析 |
概率论,数理统计 |
概率论与数理统计 |
大学物理(上),大学物理(下) |
大学物理 |
大学英语(一),大学英语(二),大学英语(三),大学英语(四) |
大学英语 |
经过这一步骤极大程度避免了如“高等代数(上)→高等代数(下)”这种冗余的规则出现,同时将无用数据删除,降低了挖掘关联规则过程中的内存占用与计算量。最终,原始选择的43门课程变为35门,用于后续关联规则挖掘。
步骤5:剔除退学学生数据。
如果某学生的加权分数不等于0的课程个数小于50个,则该生被认为是在毕业前辍学的,因此他的所有数据被剔除。
这里,加权分数不等于0的课程个数小于50个,则相应的学生被认为退学的原因如下:“应用统计学”专业的总学分为146,如果课程的平均学分为3,由于146/3 = 48.66,这意味着每个学生必须学习49门课程。但是,考虑到有些课程的学分是1,少数课程的学分为5或4,而且学分为1的课程比学分为4或5的课程多,需要学习的课程总数会增加,因此估计50门是合适的。在这里,我们已经根据2016级的数据验证了这种情况,其中有7名学生的加权分数不等于0的课程个数少于50个,并且这7名学生确实辍学了。
在剔除一些学生后,所研究的数据中还剩下219名学生,其中2016级87个、2017级72个、2018级60个。
步骤6:处理缺失值。
有些学生可能没有选择某一门专业选修课,则这门课程的分数使用其专业必修课和公共必修课加权分数的平均值来填充。
步骤7:按列归一化课程成绩。
为了消除不同老师给分区间不同的影响,对每个年级的成绩按照课程为一组数据进行最大最小归一化。详细计算式为:
.
其中, 是加权成绩的第j列, 。
步骤8:合并三个年级的成绩。
将三个年级的归一化数据以课程为索引进行合并。得到三个年级219名学生35门课程的最终考试成绩SCORES,部分数据如
由于用作关联规则挖掘的数据,应该是离散型TRUE-FALSE矩阵,即独热编码类型,需要将连续型
学号 |
概率论与数理统计 |
安全素养 |
数值分析 |
… |
数学建模 |
统计学方法及应用 |
应用随机过程 |
160***223 |
0.65 |
0.71 |
0.62 |
… |
0.71 |
0.63 |
0.90 |
160***123 |
0.24 |
0.49 |
0.26 |
… |
0.74 |
0.55 |
0.25 |
160***328 |
0.41 |
0.29 |
0.74 |
… |
0.81 |
0.63 |
0.55 |
160***106 |
0.05 |
0.53 |
0.25 |
… |
0.05 |
0.04 |
0.05 |
… |
… |
… |
… |
… |
… |
… |
… |
18*****129 |
0.88 |
0.33 |
1.00 |
… |
0.87 |
1.00 |
0.92 |
18*****221 |
0.56 |
0.22 |
0.41 |
… |
0.29 |
0.65 |
0.65 |
教育数据进行离散化。本文通过SCORES构建了独热编码矩阵 , ; ,这里i代表学生,j代表课程。矩阵DataOH中的每一个元素 的通过公式(12)定义。
其中, 代表学生i在课程j所得的成绩, 代表所有学生课程j考试成绩的平均值, 代表所有学生课程j考试成绩的标准差。
在本文中,将“好成绩”的标准定义为考试成绩高于“平均值 + 标准差”,是因为,假定成绩近似服从高斯分布,那么分数高于“平均值 + 标准差”的学生大概是课程中排名前15%的学生。
本节将利用前面预处理过的教育数据对我们前面提出来的定理和相关结论进行实验验证。同时,通过我们呈现的验证过程,也可以让其他研究人员更进一步了解和使用我们的数据集。
根据数据预处理的结果DataOH,初步进行关联规则挖掘。其中,我们要挖掘的是“大一大二的某些课程学习成绩好的情况下,大三的另外一些课程学习成绩也好”这样的规则。首先利用Apriori算法选择最小支持度为0.06,挖掘频繁项集。然后,设定最小置信度为0.5进行关联规则挖掘。但是,这些挖掘的关联规则,它们的前项可能包含大三所上的课,后项也可能包含大一大二上的课。这样的规则不是我们想要的,因为它不符合学习这门课程的时间顺序。因此需要对挖掘的关联规则进行筛选,删除上述所说的规则。最后只保留了1067条关联规则,这1067条规则将用于后续基于教育数据的定理验证。其中前5条和后5条规则如
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
算法与数据结构,概率论与数理统计,复变函数论 |
数学实验 |
0.0731 |
0.9412 |
5.0273 |
13.8174 |
0.8947 |
算法与数据结构,毛泽东思想和中国特色社会主义理论体系概论 |
回归分析 |
0.0685 |
0.9375 |
5.1328 |
13.0776 |
0.8889 |
算法与数据结构,概率论与数理统计,大学物理,复变函数论 |
数学实验 |
0.0685 |
0.9375 |
5.0076 |
13.0046 |
0.8889 |
… |
||||||
空间解析几何 |
数学实验 |
0.1096 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
大学物理 |
数学实验 |
0.1187 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
程序设计语言 |
统计学方法及应用 |
0.1142 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
数值分析,常微分方程 |
数学实验 |
0.0776 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
定理1和定理2指出了不同兴趣度量间的单调关系,这一部分将以教育数据作为实验数据,根据不同定理中的假设,分别设置两种不同的假设条件,绘制定理1和定理2中所给出的不同兴趣度量间的函数图像,分析单调性和相关关系以验证我们所提定理的准确性。
按照定理1的假定条件,分别选择三种后项,即分别固定三个
为常数。在实验中所选择的三个后项为“回归分析”“数学实验”“应用随机过程”。从
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
算法与数据结构,毛泽东思想和中国特色社会主义理论体系概论 |
回归分析 |
0.0685 |
0.9375 |
5.1328 |
13.0776 |
0.8889 |
概率论与数理统计,常微分方程,毛泽东思想和中国特色社会主义理论体系概论 |
回归分析 |
0.0685 |
0.9375 |
5.1328 |
13.0776 |
0.8889 |
空间解析几何,概率论与数理统计,毛泽东思想和中国特色社会主义理论体系概论 |
回归分析 |
0.0639 |
0.9333 |
5.1100 |
12.2603 |
0.8824 |
… |
||||||
复变函数论 |
回归分析 |
0.0959 |
0.5122 |
2.8043 |
1.6756 |
0.5116 |
离散数学 |
回归分析 |
0.1050 |
0.5000 |
2.7375 |
1.6347 |
0.5000 |
马克思主义基本原理 |
回归分析 |
0.0685 |
0.5000 |
2.7375 |
1.6347 |
0.5000 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
算法与数据结构,概率论与数理统计,复变函数论 |
数学实验 |
0.0731 |
0.9412 |
5.0273 |
13.8174 |
0.8947 |
算法与数据结构,常微分方程,复变函数论,概率论与数理统计 |
数学实验 |
0.0685 |
0.9375 |
5.0076 |
13.0046 |
0.8889 |
… |
||||||
空间解析几何 |
数学实验 |
0.1096 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
大学物理 |
数学实验 |
0.1187 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
数值分析,常微分方程 |
数学实验 |
0.0776 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
数值分析,数学分析,算法与数据结构 |
应用随机过程 |
0.0731 |
0.8421 |
5.1228 |
5.2922 |
0.8095 |
算法与数据结构,常微分方程,数学分析,数值分析 |
应用随机过程 |
0.0731 |
0.8421 |
5.1228 |
5.2922 |
0.8095 |
数值分析,常微分方程,离散数学,数学分析 |
应用随机过程 |
0.0685 |
0.8333 |
5.0694 |
5.0137 |
0.8000 |
… |
||||||
常微分方程,复变函数论 |
应用随机过程 |
0.0731 |
0.5161 |
3.1398 |
1.7269 |
0.5152 |
常微分方程 |
应用随机过程 |
0.1142 |
0.5000 |
3.0417 |
1.6712 |
0.5000 |
概率论与数理统计 |
应用随机过程 |
0.0913 |
0.5000 |
3.0417 |
1.6712 |
0.5000 |
按照定理2的假定条件,分别选择三种置信度,即分别固定三个
为常数。在实验中所选择的三个置信度为0.5,0.5357,0.6087。从
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
数值分析,常微分方程,数学分析 |
抽样调查,应用随机过程 |
0.0639 |
0.5000 |
6.4412 |
1.8447 |
0.5000 |
大学物理,常微分方程,数学分析 |
回归分析,应用随机过程 |
0.0639 |
0.5000 |
5.4750 |
1.8174 |
0.5000 |
数值分析,常微分方程,大学物理 |
回归分析,应用随机过程 |
0.0639 |
0.5000 |
5.4750 |
1.8174 |
0.5000 |
… |
||||||
程序设计语言 |
统计学方法及应用 |
0.1142 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
数值分析,常微分方程 |
数学实验 |
0.0776 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
数值分析,常微分方程 |
统计学方法及应用 |
0.0776 |
0.5000 |
2.6707 |
1.6256 |
0.5000 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
||
概率论与数理统计,数学分析 |
回归分析,应用随机过程 |
0.0685 |
0.5357 |
5.8661 |
1.9571 |
0.5333 |
||
数值分析,概率论与数理统计 |
回归分析,应用随机过程 |
0.0685 |
0.5357 |
5.8661 |
1.9571 |
0.5333 |
||
数值分析,常微分方程,数学分析 |
回归分析,应用随机过程 |
0.0685 |
0.5357 |
5.8661 |
1.9571 |
0.5333 |
||
… |
||||||||
数值分析,概率论与数理统计 |
统计学方法及应用 |
0.0685 |
0.5357 |
2.8615 |
1.7506 |
0.5333 |
||
数值分析,常微分方程,大学物理 |
数学实验 |
0.0685 |
0.5357 |
2.8615 |
1.7506 |
0.5333 |
||
大学物理,常微分方程,数值分析 |
统计学方法及应用 |
0.0685 |
0.5357 |
2.8615 |
1.7506 |
0.5333 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
数值分析,常微分方程,大学物理,概率论与数理统计 |
回归分析,应用随机过程 |
0.0639 |
0.6087 |
6.6652 |
2.3222 |
0.6000 |
概率论与数理统计,高等代数 |
数学实验,运筹学 |
0.0639 |
0.6087 |
6.3478 |
2.3105 |
0.6000 |
复变函数论,高等代数 |
数学实验,运筹学 |
0.0639 |
0.6087 |
6.3478 |
2.3105 |
0.6000 |
… |
||||||
大学物理,计算机技术 |
数学实验 |
0.0639 |
0.6087 |
3.2513 |
2.0771 |
0.6000 |
大学物理,空间解析几何,常微分方程 |
数学实验 |
0.0639 |
0.6087 |
3.2513 |
2.0771 |
0.6000 |
数值分析,常微分方程,大学物理,概率论与数理统计 |
数学实验 |
0.0639 |
0.6087 |
3.2513 |
2.0771 |
0.6000 |
根据上述描述能够将
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
常微分方程、数学分析、数值分析、概率论与数理统计、大学物理 |
回归分析、应用随机过程 |
0.0639 |
0.6667 |
7.3000 |
2.7260 |
0.6522 |
数值分析、常微分方程、数学分析、概率论与数理统计 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
数值分析、概率论与数理统计、大学物理、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
… |
||||||
大学物理、数学分析 |
回归分析、应用随机过程 |
0.0731 |
0.5161 |
5.6516 |
1.8779 |
0.5152 |
大学物理、常微分方程、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.5000 |
5.4750 |
1.8174 |
0.5000 |
数值分析、常微分方程、大学物理 |
回归分析、应用随机过程 |
0.0639 |
0.5000 |
5.4750 |
1.8174 |
0.5000 |
从
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
常微分方程、数学分析、数值分析、概率论与数理统计、大学物理 |
回归分析、应用随机过程 |
0.0639 |
0.6667 |
7.3000 |
2.7260 |
0.6522 |
数值分析、概率论与数理统计、大学物理、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
数值分析、常微分方程、数学分析、 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
数值分析、常微分方程、大学物理、概率论与数理统计 |
回归分析、应用随机过程 |
0.0639 |
0.6087 |
6.6652 |
2.3222 |
0.6000 |
数值分析、概率论与数理统计、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.5833 |
6.3875 |
2.1808 |
0.5769 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
常微分方程、数学分析、数值分析、概率论与数理统计、大学物理 |
回归分析、应用随机过程 |
0.0639 |
0.6667 |
7.3000 |
2.7260 |
0.6522 |
数值分析、概率论与数理统计、大学物理、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
数值分析、常微分方程、数学分析、概率论与数理统计 |
回归分析、应用随机过程 |
0.0639 |
0.6364 |
6.9682 |
2.4989 |
0.6250 |
数值分析、常微分方程、大学物理、概率论与数理统计 |
回归分析、应用随机过程 |
0.0639 |
0.6087 |
6.6652 |
2.3222 |
0.6000 |
数值分析、概率论与数理统计、数学分析 |
回归分析、应用随机过程 |
0.0639 |
0.5833 |
6.3875 |
2.1808 |
0.5769 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
大学生就业指导、空间解析几何 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、高等代数 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
… |
||||||
高等代数、算法与数据结构、空间解析几何、概率论与数理统计、大学物理 |
数学实验 |
0.0639 |
0.8750 |
4.6738 |
6.5023 |
0.8333 |
高等代数、空间解析几何、数学分析、数值分析、概率论与数理统计、复变函数论 |
数学实验 |
0.0639 |
0.8750 |
4.6738 |
6.5023 |
0.8333 |
高等代数、空间解析几何、数学分析、概率论与数理统计、大学物理、复变函数论 |
数学实验 |
0.0639 |
0.8750 |
4.6738 |
6.5023 |
0.8333 |
将
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
大学物理、大学生就业指导、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学物理、大学生就业指导、常微分方程、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、空间解析几何 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、高等代数 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
前项 |
后项 |
支持度 |
置信度 |
提升度 |
确信度 |
Laplace |
大学物理、大学生就业指导、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学物理、大学生就业指导、常微分方程、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、数学分析 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、空间解析几何 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
大学生就业指导、高等代数 |
抽样调查 |
0.0639 |
0.8750 |
6.1815 |
6.8676 |
0.8333 |
综合
本文关于关联规则分析中两个重要的兴趣度量Lift和Conviction进行了研究,找到了二者的函数关系和单调性变化情况等。最后还从教育数据的关联规则挖掘的过程中,对得到的函数关系定理和结论进行了验证,且实验验证结果与所提出的定理一致。因此,可以认为用Lift (X → Y)或者Conviction (X → Y)找到的关联规则是一模一样的。未来,针对这二种兴趣度量,研究者们只需要选择其中之一进行使用就可以了。此外,如果要研究X和Y的双向关系,选择Conviction的话,可以从Conviction (X → Y)和Conviction (Y → X)两个方面研究,和Lift是一样的。
*共第一作者。