目的:对在医学专业教育教学评价体系中应用机器学习的相关研究进行范围综述,为医学专业教育教学评估体系发展提供新思路。方法:依据范围综述的方法框架,确立研究问题,系统检索中国知网、万方、维普、PubMed、Web of Science 5个中英文库,检索时间为建库至2022年3月15日。筛选符合纳入标准的文献,并对文献进行分析讨论。结果:共检索文献301篇,纳入文献15篇。总结显示,机器学习主要应用在学生能力评价、课程反馈信息处理、预测和识别高危学生等方面。应用机器学习形成的教育教学评价模型评价效果较好,其在提高评价效率、节约评价成本、构建科学的评价指标等方面具有较大优势。结论:目前将机器学习应用于医学专业教育教学评价的研究较少,现有研究验证了机器学习在医学教育教学评价中应用的可行性,但其准确性、泛化性和有效性等方面仍待进一步完善。 Objective: To review the research on the application of machine learning in the evaluation system of medical professional education and teaching, and to provide new ideas for the development of medical professional education and teaching system. Methods: According to the method framework of scope review, the research questions were identified and the five Chinese and English databases of CNKI, Wanfang, VIP, PubMed and Web of Science were searched systematically from the establishment of the database to March 15, 2022. The literatures that met the inclusion criteria were screened and analyzed. Results: A total of 301 papers were retrieved, 15 of which were included according to the inclusion criteria. Machine learning methods are mainly applied in evaluating students’ abilities, processing course feedback information, predicting and identifying high-risk students, and so on. The results show that the evaluation effect of machine learning is better, and it has great advantages in improving evaluation efficiency, saving evaluation cost and constructing scientific evaluation indexes. Conclusion: Currently, there are few researches on the application of machine learning in the evaluation of medical education and teaching. Existing researches have verified the feasibility of the application of machine learning in the evaluation of medical education and teaching, but its accuracy, generalization and effectiveness still need to be further improved.
目的:对在医学专业教育教学评价体系中应用机器学习的相关研究进行范围综述,为医学专业教育教学评估体系发展提供新思路。方法:依据范围综述的方法框架,确立研究问题,系统检索中国知网、万方、维普、PubMed、Web of Science 5个中英文库,检索时间为建库至2022年3月15日。筛选符合纳入标准的文献,并对文献进行分析讨论。结果:共检索文献301篇,纳入文献15篇。总结显示,机器学习主要应用在学生能力评价、课程反馈信息处理、预测和识别高危学生等方面。应用机器学习形成的教育教学评价模型评价效果较好,其在提高评价效率、节约评价成本、构建科学的评价指标等方面具有较大优势。结论:目前将机器学习应用于医学专业教育教学评价的研究较少,现有研究验证了机器学习在医学教育教学评价中应用的可行性,但其准确性、泛化性和有效性等方面仍待进一步完善。
机器学习,医学教育,教育评价
Fangyan Yue, Jing Li, Ou Chen, Yu Jia, Yufang Guo
School of Nursing and Rehabilitation, Shandong University, Jinan Shandong
Received: Jun. 18th, 2022; accepted: Jul. 15th, 2022; published: Jul. 21st, 2022
Objective: To review the research on the application of machine learning in the evaluation system of medical professional education and teaching, and to provide new ideas for the development of medical professional education and teaching system. Methods: According to the method framework of scope review, the research questions were identified and the five Chinese and English databases of CNKI, Wanfang, VIP, PubMed and Web of Science were searched systematically from the establishment of the database to March 15, 2022. The literatures that met the inclusion criteria were screened and analyzed. Results: A total of 301 papers were retrieved, 15 of which were included according to the inclusion criteria. Machine learning methods are mainly applied in evaluating students’ abilities, processing course feedback information, predicting and identifying high-risk students, and so on. The results show that the evaluation effect of machine learning is better, and it has great advantages in improving evaluation efficiency, saving evaluation cost and constructing scientific evaluation indexes. Conclusion: Currently, there are few researches on the application of machine learning in the evaluation of medical education and teaching. Existing researches have verified the feasibility of the application of machine learning in the evaluation of medical education and teaching, but its accuracy, generalization and effectiveness still need to be further improved.
Keywords:Machine Learning, Medical Education, Teaching Evaluation
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
教育教学评价是根据教学目标,通过搜集教学过程中的主要信息,准确地了解教学情况并进行科学分析,对学校教学质量做出评价,进而调整、优化教学的活动 [
机器学习是使用计算机作为工具,并致力于真实实时模拟人类学习方式,将现有内容进行知识结构划分来提高学习效率和对数据利用的技术 [
范围综述(Scoping review)是基于循证的研究方法,可用于探索某一类研究的范围、程度和本质,从而总结和推广研究结果 [
检索中国知网、万方数据、维普、Web of Science、PubMed等5个中英文文献数据库,使用主题词与自由词相结合检索自建库至2022年3月15日的相关文献。英文检索以PubMed为例,检索式为:“machine learning” [Title/Abstract] AND (“medical student”[Title/Abstract] OR “medical education” [Title/Abstract] OR “nursing education” [Title/Abstract]) AND (“evaluation” [Title/Abstract] OR “predict” [Title/Abstract])。中文检索以万方数据为例,检索式为:主题:(机器学习OR Machine Learning OR决策树算法OR朴素贝叶斯算法OR支持向量机算法OR随机森林算法OR人工神经网络算法OR Boosting与Bagging算法OR关联规则算法OR EM (期望最大化)算法OR深度学习) and主题:(医学专业OR临床医学OR护理学OR药学OR基础医学OR中医学OR medical major) and主题:(教学质量评价OR教学评价OR教学评价指标OR教学评价指标体系)。
纳入标准:① 运用机器学习算法对医学教育中教学过程、学习活动、教学效果、教学管理等进行评估的相关研究。② 评价对象为学生、教师、课程、医学高校等。③ 可提取完整数据的文章。排除标准:① 非中、英文文献。② 会议论文和综述类文章。③ 重复发表的文献。
由两名有循证学习经历的研究者独立筛选文献,如遇分歧,咨询第三方。首先将检索到的文献导入Endnote、Noteexpress文献管理软件进行去重,根据文献的纳入、排除标准进行文献的初筛,之后两位研究者阅读文献的题目及摘要,排除不符合要求的文献,进一步阅读全文进行复筛,最终对纳入的文献进行信息提取,提取内容包括:① 文献的基本信息,即作者、发表年限、国家或地区;② 研究类型、所用算法、评价模型功能、评估应用及评价性能等。
对纳入的研究文献的范围、性质和特点进行综述,以表格的形式进行具体呈现。
共获得文献301篇,其中中国知网7篇,万方数据141篇,维普58篇,PubMed 32篇,Web of Science 63篇。去除重复文献37篇;经过阅读标题和摘要去除文献226篇;阅读全文,排除研究主题、对象、类型不符以及无法获取全文和内容重复的文献23篇,最终纳入篇文献15篇,包括万方数据1篇,维普1篇,PubMed 3篇,webofscience 10篇。
15篇文献发表于2013至2022年,分别在美国(n = 7)、英国(n = 1)、加拿大(n = 3)、中国(n = 3)、意大利(n = 1)进行。样本量15至9853名。纳入文献汇总信息见表1。
作者、发表年份 | 国家 | 评价对象 | 模型所用的机器学习算法 | 评价模型的功能 | 评价应用 | 性能评价 | 研究类型 | 样本量 |
---|---|---|---|---|---|---|---|---|
朴杰等(2013) [
|
中国 | 医学生 | 支持向量机(SVM)算法 | 临床能力评估 | 教学效果 | 评价系统具有可行性 | 定量研究 | 346 |
张俊飞(2018) [
|
中国 | 教师 | 改进朴素贝叶斯算法 | 评教评语情感分析 | 教学过程 | 较传统朴素贝叶斯算法评价性能提高 | 定量研究 | 9854 |
Yukunchen, MS等(2014) [
|
美国 | 医学生 | 朴素贝叶斯、逻辑回归和线性SVM | 老年医学能力评估 | 教学效果 | 评价模型在部分老年医学能力评价性能良好,在部分能力评价上效果不佳 | 定量研究 | 119 |
Jun Yang等(2020) [
|
中国 | 医学生 | 随机森林 | 自我调节学习水平评价 | 教学管理 | 评价模型具有良好的预测精度、辨别性和泛化性 | 多中心横断面研究研究 | 2052 |
LiHannaford等(2021) [
|
美国 | 医学生 | C5.0 (决策树)、随机森林、xgboost、神经网络、支持向量机、朴素贝叶斯、k-最近邻和逻辑回归及堆积集成方法 | 识别不能完成学业的高危学生和与毕业结果相关因素 | 教学管理 | 验证了预测有效性;敏感性低,缺乏泛化性 | 定量描述性研究 | 1018 |
Matthew S. Holden (2018) [
|
加拿大 | 学员 | 决策树算法 | 医学技术技能评价 | 教学效果 | 验证了评估方法有较好的准确性和反馈的有用性。 | 定量研究 | 19 |
Syed Latifi等(2015) [
|
加拿大 | 医学生 | 决策树算法 | 论文自动评分评估临床能力 | 教学效果 | 评分系统结果可靠性,具有可行性 | 定量研究 | 8007 |
Aditya Borakati (2021) [
|
英国 | 课程 | 潜在狄利克雷分配(LDA)算法 | 分析医科学生对电子学习课程的反馈信息 | 教学过程 | 评价方法可行 | 多中心队列研究 | 1396 |
NykanMirchi等(2020) [
|
加拿大 | 医生、医学生 | 支持向量机 | 评估和训练医学精神运动技能 | 教学效果 | 评价方法可行 | 定量研究 | 50 |
Roberto Bertolini等(2021) [
|
美国 | 医学生 | 单项机器学习算法1) 逻辑回归(LR)、2) 支持向量机(SVM) 集成机器学习算法1) 广义线性模型(GLMNET)、2) 随机森林(RF)和3) 随机梯度增强(GBM) | 早期识别高危风险学生,减少STEM相关课程(护理学。预防医学等)的学生流失率。 | 教学管理 | 评价结果准确性较好,敏感性及泛化性较差 | 定量描述性研究 | 3325 |
Shang Zhao等(2021) [
|
美国 | 学员 | 神经网络 | 利用有限数据进行技术技能评估 | 教学效果 | 验证了评价模型利用小样本量进行评价的可行性 | 定量研究 | 478 |
Andrea Moglia等(2022) [
|
意大利 | 医学生 | 集成深度学习 | 评估外科技能习得的进展,预测医学生的技术技能 | 学习过程 教学效果 | 集成深度学习模型的性能优于集成树的模型(随机森林和GBRT)和传统的非线性ML算法 | 定量研究 | 176 |
Mohamed S. Baloul, MBBS等(2020) [
|
美国 | 学员 | 人工神经网络(ANN) | 评价学员的非技术认知技能 | 教学效果 | 机器学习算法比传统方法具有更好的准确性。本研究验证了其可行性 | 定量研究 | 81 |
Yuanyuan Gao等(2020) [
|
美国 | 医学生 | 核偏最小二乘(KPLS)多元监督机器学习算法 | 根据学习者的初始技能水平预测其到达熟练程度的训练次数及最终的表现水平,描绘学习曲线 | 学习过程 教学效果 | 评价方法可行 | 定量研究 | 15 |
Yousi A. Oquendo等(2018) [
|
美国 | 学员 | 正则化最小二乘回归(lasso)和回归树的组合 | 自动评估学员在儿童腹腔镜缝合任务中的技术技能水平 | 教学效果 | 验证了评价模型的可行性 | 定量研究 | 63 |
表1. 纳入文献的基本信息
根据纳入文献可知,在医学教育教学评价中应用最多的算法为支持向量机(SVM)算法(n = 5),其次是朴素贝叶斯算法(n = 3)、随机森林算法(n = 3)、决策树算法(n = 3)、逻辑回归算法(n = 3)、人工神经网络网络算法(n = 3)、深度学习(n = 1)、xgboost算法(n = 1)、k-最小邻算法(n = 1)、广义线性模型(n = 1)。机器学习算法在医学教育中主要应用于教学效果评价(n = 10)、教学过程评价(n = 2)、学习过程评价(n = 2)及教学管理(n = 3)等方面。其中在教学效果评价方面的研究数量最多,纳入文献中有11项研究将机器学习应用于医学生的能力评估,包括医学技术技能(n = 6)、临床综合能力(n = 2)、老年医学能力(n = 1)、自我调节水平(n = 1)及医学非技术认知能力(n = 1)的评估。在教学过程评价方面,目前的研究主要集中在应用机器学习算法进行课程反馈信息的分析;在教学管理方面,纳入的3篇文献均是关于应用机器学习早期识别高危风险学生及教学结果相关因素预测的研究。在学习过程评价方面,机器学习主要应用于学生学习过程的监控和跟踪,通过描绘学习曲线,对学生的学习情况进行即时反馈。
纳入的15项研究均对机器学习算法模型的性能进行了验证和评估,其中大多数研究通过数据分割及交叉验证的方法进行性能评估,只有1项研究 [
教学效果评价是教学评价体系中的重要组成部分,当前医学评价已由基于时间标准逐渐向基于能力标准转变 [
然而利用机器学习评估学生当前的水平并不是终点,形成性评价是医学教学评价中重要的评价方式,机器学习,尤其深度学习曾被比喻为“黑匣子”,外界对其评价过程全然不知。但透明度和信任是确保教育者和学习者之间成功联系的重要组成部分,近年来,Holden [
目前,机器学习在教学过程评价方面的应用研究较少,纳入研究中仅有2篇文献 [
学习过程评价动态监控和调节学习者的学习行为,促进学习者持续、有效地学习,对教师动态掌握学习者的学习状况,实施教学调控和工作反思具有极其重要的作用 [
教学管理是教学评价体系中的重要环节,决定教学评价的结果能否反馈于教学和学习活动中以提高教学质量。Yang [
本研究纳入的4篇报告 [
目前机器学习在医学教育教学评价体系中的应用处于初步探索阶段,研究重点集中在评价模型的可用性,而缺乏评价模型在教学评价体系中应用的用户或利益相关者使用效果的研究,同时缺乏纵向研究。在后续的研究中,建议进行纵向研究,以发现机器学习在评价体系中应用的不足及对教学管理水平和教学质量的影响,从而检验机器学习评价模型在医学教学评价体系中应用的有效性。
评价模型是否得到推广使用取决于评价方法的性价比。在以上研究中机器学习方法在医学教学评价体系中应用的可行性已被验证,并且其具有节约人力成本和提高效率的优势,但评价模型构建成本却未被提及。Latifi等 [
机器学习所具有的自主学习能力及在分类和预测领域的突出表现,可以有效地克服传统医学教育教学评价方法中主观性、线性、评价模型固定及评价效率低下等问题,其在医学教育教学评估方面有较大的发展空间。但相关研究数量较少,评价模型性能、评价结果有效性及泛化性等方面还存在不足。在今后的研究中,可以扩大样本量,改进机器学习算法模型性能,增加评价模型应用效果的研究,促进机器学习在医学教育教学评价中更加高效的应用和推广。
岳芳岩,李 静,陈 欧,贾 愚,郭玉芳. 机器学习在医学专业教育教学评价中应用的范围综述A Review of the Application Scope of Machine Learning in Medical Education and Teaching Evaluation[J]. 教育进展, 2022, 12(07): 2447-2455. https://doi.org/10.12677/AE.2022.127372
https://doi.org/10.3969/j.issn.2095-0020.2005.04.007
https://doi.org/10.12014/j.issn.1002-0772.2019.13.15
https://doi.org/10.3969/j.issn.1006-4222.2019.04.157
https://doi.org/10.1016/j.ijnurstu.2009.02.010
https://doi.org/10.3969/j.issn.1007-1423.2018.32.001
https://doi.org/10.3389/fpsyg.2019.02858
https://doi.org/10.1016/j.nedt.2021.104784
https://doi.org/10.1007/s11548-019-01977-3
https://doi.org/10.1177/0163278715605358
https://doi.org/10.1186/s12909-021-02609-8
https://doi.org/10.1371/journal.pone.0229596
https://doi.org/10.1007/s10956-020-09888-8
https://doi.org/10.1109/EMBC46164.2021.9630498
https://doi.org/10.1007/s00464-021-08999-6
https://doi.org/10.1016/j.jsurg.2020.09.022
https://doi.org/10.1016/j.surg.2019.10.008
https://doi.org/10.1007/s00464-017-5873-6