大学生数据素养评价指标体系——理论与实证研究
Evaluation Index System of College Students’ Data Literacy—Theoretical and Empirical Research
DOI: 10.12677/csa.2024.1412262, PDF, HTML, XML,   
作者: 何才壮*, 武 聪, 徐前进:西京学院计算机学院,陕西 西安;程敬德:长春工业大学计算机科学与工程学院,吉林 长春
关键词: 数据素养代码可视化Data Literacy Code Visualization
摘要: 目前中国的高校中开设了许多专业类别,每种专业类别下开设了许多的课程,在大学生群体中对于每门课程的认识程度、课程后对知识的理解程度没有一个明确、直观的呈现方式。构建大学生数据素养评价指标体系可以通过对大学生调查问卷、对授课老师或相关专家和学生的座谈内容来描绘出当前大学生对于当前学科认知程度的画像,同时通过对老师的授课经验与教材为对照归纳出每门课程的关键知识点构建专家语料库,并且基于计算机学科以代码为主,以专家语料库为参照,分别读取教材内代码或者实战中代码文件实现各个代码相关度的可视化呈现,以及所有代码中每个知识点的权重可以有个直观、可视化的呈现。构建大学生数据素养评价指标体系,对于老师可以帮助他们更加直观地看到教材当中每块知识点的权重从而更好地规划自己的授课重点;对于学生也可以在日常学习中不管是课堂还是自学都有一个更清晰、明了的学习规划路线提高学生对于知识点的吸收程度;对于学校也更清晰直观地看到每本教材的各知识点前后关联程度,从而更好地看到不同版本的教材对教学带来的差异。
Abstract: At present, many major categories have been offered in Chinese universities, and numerous courses are set up under each major category. However, among the college student group, there is no clear and intuitive way to present their understanding level of each course and the comprehension level of knowledge after taking the courses. Constructing an evaluation index system of college students’ data literacy can depict the current cognitive level of college students regarding the current disciplines through conducting questionnaires among college students and holding discussions with teaching instructors, relevant experts, and students. Meanwhile, by taking the teaching experience of instructors and textbooks as references, the key knowledge points of each course can be summarized to build an expert corpus. And based on the computer science discipline where code is predominant, with the expert corpus as a reference, the code in textbooks or code files in practical operations can be respectively read to achieve a visual presentation of the relevance of each code, as well as an intuitive and visual presentation of the weight of each knowledge point in all the codes. The construction of the evaluation index system of college students’ data literacy can help instructors to more intuitively perceive the weight of each knowledge point in textbooks, thus better planning their teaching priorities. For students, it can also provide a clearer and more explicit learning planning route in their daily study, whether in class or in self-study, enhancing their absorption of knowledge points. For schools, it enables them to more clearly and intuitively observe the interconnection degree of each knowledge point in every textbook, thereby better discerning the differences brought by different versions of textbooks to teaching.
文章引用:何才壮, 武聪, 徐前进, 程敬德. 大学生数据素养评价指标体系——理论与实证研究[J]. 计算机科学与应用, 2024, 14(12): 276-284. https://doi.org/10.12677/csa.2024.1412262

1. 引言

数据素养评价体系是一个多维度的框架,它包含数据意识、数据知识、数据技能、数据伦理和数据思维等多维度信息,能够从多维度反映出用户对数据价值的认知、对数据在决策中作用的理解等,能从数据的视角看待问题、解决问题,善于从数据中发现规律和趋势,进行合理推断。而数据素养评价体系的应用场景十分广泛,在大学教育下的环境出发将数据素养评价体系应用于教育场景中,学校不仅可以通过该体系了解学生数据素养水平,据此调整教学内容和方法,为学生提供个性化学习指导,如开设数据处理与分析等课程,以此提升学生数据素养,还可以用于评估教师的数据素养,以便针对性地开展培训,使教师能更好地将数据素养教育融入课程教学,培养学生的数据思维和分析能力。面对大学生素养评价体系的构建,蒋林[1]研究了面对大学生劳动素养体系的构建,其中在文献中指出新时代大学生劳动素养评价指标体系的构建对劳动教育工作的开展、劳动教育效果的检验以及学生劳动实践具有引导和激励作用[1]

在此可以看到数据素养应用在当代大学生群体当中可以很好地反映学生状态的效果,在此基础上结合知识图谱可视化技术,对学生专业课的知识点进行刨析,了解学生对教材内容知识点的接受程度,能够将学生群体对于各个知识点的掌握程度用可视化的方法呈现出来,帮助老师更好地规划授课方案以及帮助学生更好地规划学习路径。

2. 国内外研究现状

2.1. 国外研究现状

在国外,对数据素养的研究主要集中在多个领域,如教育、公共卫生、医学、图书馆、档案管理、通信工程、计算机科学以及情报等。Hegarty [2]等认为数据素养是一种能对数据进行有效使用、管理、创造、引用和分享的能力,是信息素养的子集。美英两国是数据素养研究的重要阵地,在数据素养教育实践中积累了大量经验。例如,加州大学圣地亚哥分校、哈佛大学、爱丁堡大学、约翰霍普金斯大学在数据素养教育方面发表的论著较丰富。许多国家都出台了促进数据素养教育的政策,形成了相对完整成熟的教学体系,包括系统课程、在线教学、研讨会、讲座等一系列活动,活动内容丰富、形式灵活。

大数据时代数据素养的兴起源于当前海量数据的使用及其影响。数据不仅成为新型经济资产,还借助算法以驱动决策,深刻影响每个人的生活世界。同时,大数据也引发了诸如隐私泄露、算法决策风险、数据不公正、参与差距等问题,而数据素养则是解决这些问题的关键之一。

从理论层面而言,数据素养本身具有内在合法性的争议。争议主要有两个方面,一是数据素养这一概念在大数据时代是否依旧适用。存在两种观点,一种观点认为大数据时代数据素养概念依旧适用,持此观点的学者多从不同的学科和视角界定数据素养。二是关于数据素养的技术维度与社会伦理维度的关系界定。

从实践层面而言,数据素养主要包括工匠型数据素养、参与型数据素养和交互型数据素养,其实践形态以技术干预模式为主。为了规避数据驱动社会的各类风险,需超越技术性的数据素养,从人与数据交互的视角把社会伦理融入到数据素养中,以促进以人为本的大数据技术进展。

国外知识图谱的研究可以追溯到20世纪50年代,当时学者们开始研究人工智能中的语义网络模型。随着互联网和大数据技术的不断发展,知识图谱的应用和研究也得到了迅速拓展。2007年,谷歌公司提出了“知识图谱”概念,并开始构建大规模的知识图谱库,标志着知识图谱进入发展快车道。

目前,国外知识图谱的研究和应用涉及多个领域。在搜索引擎方面的应用最为广泛,例如谷歌的Knowledge Graph和微软的Satori Graph。知识图谱在搜索引擎中通过语义分析和实体关联技术,将搜索结果与用户查询的问题进行更加精准的匹配,提高搜索质量和用户体验。在智能问答方面,主要通过自然语言处理和语义分析技术,将用户的问题转化为计算机可理解的语言,然后在知识图谱中查找相关信息,给出准确回答。此外,在语义网方面也得到不少研究者的关注,例如IBM的Watson和DBpedia等。知识图谱还是语义网的重要组成部分,通过实体、属性和关系等元素将各种领域的知识结构化、关联化,使得计算机能够理解并处理这些知识,进一步推动智能化的发展。在推荐系统方面,通过分析用户的历史行为和偏好,以及商品或服务之间的关系,为用户提供更加精准的个性化推荐。在风控领域,通过分析社交网络、金融数据等信息,识别潜在的风险和欺诈行为。

2.2. 国内研究现状

国内对数据素养的研究起步较晚,目前仍处于初期阶段。自2012年以来,数据素养开始得到广泛关注,研究主要分布在公共卫生、医学、图书馆、档案管理、通信工程、计算机科学、新闻及情报等领域。近年来关于数据素养的研究呈现明显增长的趋势,研究的领域与范围也在不断扩大。

国内相继出现了中国科学院文献信息中心、武汉大学等核心研究机构,也涌现了一批像胡辉[3]、黄如花[4]、张静波[5]等的专家。黄如花等认为数据素养是信息素养的一种扩展,包括数据意识、数据能力和数据伦理;张静波指出数据素养是科研人员在数据的采集、组织管理、处理分析、共享协作、利用等方面的能力,以及在各个过程中应遵守的规范道德。

教育领域的数据素养研究较少,仅有少量文章结合了大数据时代的时代发展背景,在实践与理论分析的基础上,探索数据素养教育的重要性,但几乎没有与数据素养相关的教育实践活动。可见,国内教育领域的学者对数据素养研究仍处于探索阶段。

目前,国内学者开始关注大学生数据素养教育问题,相关研究逐渐增多。然而,我国大学生数据素养教育尚处于起步阶段,缺乏系统性和针对性的研究。未来,随着大数据技术的不断发展和应用领域的拓展,大学生数据素养教育的研究将更加深入和广泛。同时,跨学科、跨领域的数据素养教育合作将成为重要趋势,以推动大学生数据素养的全面提升。

大学生数据素养体系的国内外研究现状表明,数据素养在当今社会中的重要性日益凸显。国外在数据素养研究和教育实践方面积累了丰富的经验,形成了较为成熟的教学体系和实践形态。而国内虽然对数据素养的研究逐渐增多,但仍处于起步阶段,尤其是在教育领域,需要进一步加强研究和实践,探索适合我国大学生的数据素养教育模式和体系,以提高大学生的数据素养水平,适应大数据时代的发展需求。

知识图谱的研究。2017年,我国科学目录调整时,首次出现了知识图谱学科,教育部对知识图谱这一学科的定位是“大规模知识工程”。在搜索优化方面,2012年11月22日,搜狗知立方上线,成为国内首个搜索引擎“中文知识图谱”。差不多同一时间,百度知识图谱被立项。随后,知识图谱引入到电商搜索领域。2015年,阿里巴巴开始构建电商领域知识图谱——认知图谱;2016年Amazon也紧随其后开始构建知识图谱。

国内知识图谱在教育领域的应用前景愈发广阔,其应用范围不断拓展。比如在智能教学资源推荐、教育智能客服等方面都在积极探索和尝试。在教育相关的一些重点细分领域,知识图谱的应用占比正逐步提高且发展速度加快,这些领域的业务与知识图谱能够紧密融合,同时相关教育机构和部门有着强烈的建设意愿且愿意投入资金。未来,随着教育数字化建设的不断完善,教育政务对知识图谱的业务需求也会逐渐凸显出来,为教育发展提供更有力的支持。

3. 研究思路

首先我们了解到LDA (Latent Dirichlet Allocation)模型作为一种机器学习自然语言处理方法,可以较为准确地提取所研究领域的热门研究主题[6]

Figure 1. Research framework

1. 研究框架

那么我们可以在中国知网(CNKI)搜索相关文献并下载后,进行相关的文本预处理可以得到筛选后的文本数据,将文献中所包含的专业关键词提取出来,做为相应的指标层,再通过对学生、老师的调查问卷以及教材内容的分类刨析丰富完善相应的指标层,根据数据分析流程可以将指标层前再设定出准则层(设定成最优主题数),待将原始语料库构建完毕后可以通过LDA模型进行主题建模。根据数据的困惑度和一致性系数进行最优主题个数的确定,得到主题–词项概率分布并对每个主题进行命名标志[7]。对于此研究思路,胡乐天[7]等人也做了相关实验,并给出了研究框架如图1所示。

4. 研究设计和数据处理

4.1. 大学生数据素养体系的构建

Figure 2. The results of perplexity calculation

2. 困惑度计算结果

Figure 3. The results of consistency calculation

3. 一致性计算结果

Figure 4. Theme weight ratio

4. 主题权重比

Figure 5. Display with bubble charts

5. 气泡图展示

本文的数据来源于CNKI,再CNKI中为了保证数据源的质量,引用期刊来源设定为北大中文核心期刊。在搜索“数据素养”类相关文献后先挑选了50篇文献作为实验的数据源。

最优主题数的确定。本文根据综合困惑度(Perplexity)指标跟一致性(Coherence)指标,选择LDA模型最优主题数目[8]。综合困惑度代表了一篇文章内容映射到各个专业词汇的确定性程度,困惑度越高代表确定性越弱。一致性指的是不同关键词之间的区分程度,所能反映的是不同主题分布之间的距离。好的LDA模型应该要有低的困惑度和高的一致性,既能反映出指标层的出现频率,又能呈现出准则层的关联程度。

本文采用python语言编程,在计算出不同主题下的困惑度和一致性后绘制成折线图,更加直观地展现出准则层的数量对困惑度和一致性的影响。图2图3展示了计算后的困惑度跟一致性的折线图,由两图可知在主题数量为6个时困惑度相对较低同时一致性相对较高,但考虑到文献数量较少,如果主题数量过多可能会造成主题划分颗粒度过大或者造成过度拟合,因此选择主题数量为3来进行本次实验。

识别主题。对提取出的主题进行人工分类标识,制作主题–词项分布表,计算出各主题的频率,计算出各个主题的权重,计算结果如图4所示。

确定主题数量与制作好主题–词项分布表后根据各关键词的权重通过python代码可以生成气泡图,如图5所示。当主题数为3时,不同主题之间的距离分离度较高,确定性也越高。

4.2. 知识图谱的可视化

知识图谱可视化的研究,张甜甜[9]等人给出了一种TKS (Teacher Knowledge Student)模型,此模型包含学生层、教师层、知识层三个层面,具体技术流程图如图6所示。

Figure 6. Flow chart of technical route

6. 技术路线流程图

Figure 7. Expert corpus

7. 专家语料库

依据此模型思路并结合大学生数据素养体系的构建思路,利用调查问卷和专家座谈的方式将面向代码的专家语料库构建,如图7所示。

数据集的来源与教材的配套代码集,本文采用了80个代码,依据专家语料库进行分词后,根据权重比值和TF-IDF (Term Frequency-Inverse Document Frequency)方法划分对关键代码、关键章节、代码相似度、知识点之间的关系,可以实现生成词云图和代码相似度的可视化展示。具体结果如图8图9所示。

Figure 8. Word cloud map based on the weights of knowledge points

8. 基于知识点权重的词云图

Figure 9. Knowledge point relationship graph

9. 知识点之间的关系图谱

5. 未来展望

根据以上实验结果以大学生数据素养体系为理论支撑,面向专业代码的知识图谱可视化构建是可行的。在未来对于计算机学科涉及到专业代码的部分,可以通过构建专家语料库的方式帮助老师快速地实现教材内词云图的可视化呈现,帮助老师对教学备案有更加清晰明确的思路;对于学生来讲,词云图不仅可以给学生带来更为直观的学习思路规划,代码相关度的呈现更能帮助学生在课堂实操过程中对于前后所学代码起到串联的作用;对于学校在更换新教材的情况下可以通过教材内前后知识点的关联程度来判断一本教材的编排好坏。

大学生数据素养评价体系的构建对于老师的授课跟学生对知识点的吸收理解还是有很大的帮助的,应用于教学领域还是有很大的发展空间。未来如果再配合ChatGPT实现人机间的智能问答,一方面高校通过数据素养教学的目的在于培养学生的数据思维能力,提升其用数据认识世界、改造世界及解决问题的能力。另一方面ChatGPT在编程、阅读和写作方面的效率,以及其通过智能交互、分析和解释层给用户带来的优越体验,对数据素养教育资源的普及、教学效率的提高、学生全面发展和个性化成长的促进等方面有很大的帮助[10]

如果再配合后续的大学生数据素养评测系统,通过在教学实验中得到的数据录入评测系统后再由系统调整权重可以实现一个系统的自我完善。

NOTES

*通讯作者。

参考文献

[1] 蒋林. 新时代大学生劳动素养评价指标体系构建研究[J]. 湖南工业职业技术学院学报, 2024, 24(5): 55-59.
[2] Hegarty, B., Penman, M., Kelly, O., et al. (2010) Digital Information Literacy: Supported Development of Capability in Tertiary Environments. Ministry of Education.
[3] 胡辉, 马驰. 项目驱动的Python程序设计课程教学模式[J]. 福建电脑, 2023, 39(8): 109-112.
[4] 黄如花, 李白杨. 数据素养教育: 大数据时代信息素养教育的拓展[J]. 图书情报知识, 2016(1): 21-29.
[5] 张静波. 大数据时代的数据素养教育[J]. 科学, 2013(4): 29-32.
[6] Blei, D.M., Ng, A.Y. and Jordan, M.I. (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 12-13.
[7] 胡乐天, 姜娟, 潘伊芸, 杨欣晨. 基于LDA模型的ChatGPT文献计量分析[J]. 集成电路应用, 2024, 41(4): 387-389.
[8] Röder, M., Both, A. and Hinneburg, A. (2015) Exploring the Space of Topic Coherence Measures. Proceedings of the 8th ACM International Conference on Web Search and Data Mining, Shanghai, 2-6 February 2015, 399-408.
https://doi.org/10.1145/2684822.2685324
[9] 张甜甜. 基于数据结构的知识图谱构建及其可视化应用的研究[D]: [硕士学位论文]. 上海: 上海师范大学, 2020.
[10] 叶小娇. 基于ChatGPT的大学生数据素养教育研究[J]. 西昌学院学报(自然科学版), 2023, 37(4): 123-128.

Baidu
map