1. 引言
教学评价是依据教学目标,以保证教学效果、提高教学质量为目的,根据一定的标准,运用科学有效的方法和手段,对教学活动及其结果进行判定,并为教学决策服务的活动 [1]。其中,以学生评教最能反映教师在授课过程中的优缺点。
20世纪80年代中期,我国部分高校开始引入学生参与评教,后逐步获得多数高校的认可,并逐渐纳入到高校考核中 [1]。但由于早期受到技术限制,各高校主要以调查问卷或填涂信息卡的方式进行评教数据的收集与统计。
当下,信息技术发展一日千里,各高校为不断适应现代教育环境与方法,也将部分教学活动转移到了线上 [2],学生评教也由早期的调查问卷改变为线上的评分与评论相结合的方式,教育方式也由曾经的以教师为主体,逐步过渡到以学生为主体。
学生作为课堂教育的主体,直接参与到了教师授课过程中,对于教师的备课、语言表述、课堂互动、课堂管理、授课技巧等各个授课环节的感受,通过学生评教能够最直接地表达出来,因此,分析课堂评教内容,可以及时掌握学生对本课程教师授课活动的建议,使教师及时发现自身在授课过程中存在的优缺点,促进教师提升教学技巧、提高教学质量;也有助学校建立行之有效的量化机制,了解教师教学水平,提高教学量化考核的质量。
无论是线上还是线下教育,普遍采用的是一对多的模式 [3],即一个老师对应多个学生。因此,在线上的学生评教活动中,会产生大量的数据,一部分是由评分方式产生的数值型数据,另一部分是由学生自然通过自然语言描述产生的文本类数据。对数值型数据的分析相对简单,但分析结果无法有效反映教师在教学活动中具体的优缺点,因此,文本类数据是了解学生状况、关注学生差异、获得学生反馈信息、提升教学效果的重要途径。
但由于学生基数大,且水平参差不齐 [4],因此学生评教内容存在主观性和随意性,导致对评教结果的判定多以统计评分为主,而忽略了学生评教的文本内容,使教师无法更加详细客观地了解学生的评教意见,从而无法及时改进教学方式,提高教学质量。
通常评教指标包括教学态度、教学内容、教学方法及教学效果,教学效果通常以分数形式呈现,故本文将某高校学生评教文本数据在一级指标 [5] 的基础上细分为5个维度,包括:备课、课堂管理、作业评讲、语言表达、课堂互动,见表1;再通过自然语言情感分析对文本内容进行积极和消极判定,最后依据结果的可视化分析,讨论教师在教学活动中改进的方向。

Table 1. Breakdown of evaluation dimensions
表1. 评教维度细分
2. 自然语言处理
自然语言处理是计算机科学和人工智能的研究领域之一,通常将自然语言转换成计算机能够用于理解这个世界的数据或用于生成能够体现这种理解的自然语言文本 [6]。
2.1. SnowNLP
SnowNLP是一个GitHub开源项目,是针对简体中文文本中的主观信息(如态度、情感)进行提取、分析、处理、归纳的Python库 [7]。
SnowNLP功能强大,能够实现中文分词、情感分析、文本分类、繁体字转简体字、文本相似性分析等功能 [8]。其中情感分析是基于SnowNLP自带的两个积极与消极语料库(neg.txt、pos.txt)实现情感数值计算。情感数值取值范围从0到1表示情感由消极到积极的变化,即越接近0表示负面情绪越高,越进阶1表示正面情绪越高。例如,对“缺勤人数多”进行情感评价,获得情感值为0.27841740057,表示该语句偏向表达负面情绪;而语句“重难点讲解透彻”的情感值为0.9981557064,表示该语句偏向表达正面情绪。
但SnowNLP自带语料库是关于酒店、书本等电商留言评论内容 [9],部分内容较片面,不能够满足学生评教数据情感分析,因此需要更换语料库进行训练。
2.2. 语料库
语料库是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体,主要应用于语言定量分析、语法研究、法律语言研究、自然语言理解、机器翻译等方面 [10]。
目前网上开源的中文语料库较多 [11],例如酒店评论语料、商品评论语料、微博情绪语料、影评数据集等,但针对教学评论的语料库内容极少,本文使用通用情感词典生成新的积极与消极情感语料库,词典包括:大连理工大学中文情感词汇库、台湾大学中文情感极性词典、清华大学中文褒贬义词典、玻森中文语义词典、Synonyms中文近义词库。
3. 数据预处理
本文对某高校某门课程的265条学生评教文本数据进行情感倾向分析,该评教数据是针对教师教学过程中的优点及不足两方面进行评价,如图1所示。
3.1. 评教数据预处理
数据预处理之前要进行数据质量分析 [12],数据质量分析的主要目的就是检查原始数据中是否存在“脏数据”。脏数据包括缺失值、异常值、不一致的值和重复数据。
首先将评教数据进行质量分析,对文本类数据检测发现存在19条无评教内容,及存在“缺失值数据”,最终获得有效评教数246条;再将评教数据以句为单位进行拆分,得到764条评教数据;最后依据评教指标的5个维度进行人工识别和分类,若存在某一句中的评教内容包含2个以上评教维度,则将该条评教进行人工分离成对应的语句数,并添加对应维度。最终获取到具有有效评教维度的数据815条,如图2所示。
3.2. 情感词典预处理
提取通用情感词典中的积极词汇与消极词汇分别生成积极情感倾向语料库与消极情感倾向语料库,并去掉重复词后,得到积极词数32550条,消极词数25407条,见表2。其中玻森中文语义词典中存在大量非中文词语 [13],且词表中的情感倾向性权重取值范围为[−6.704000126, 6.37503943135]之间,因此先去掉所有非中文词语,再将权重小于 −1的中文词语划入消极词表,权重大于1的中文词语划入积极词表,而权重值在 −1到1之前的词语偏向中性,本论文中暂不讨论。
情感词典集合的生成基本实现了通用性 [14],但在评教数据分析的过程中发现,部分词语的积极与消极性与评教表达的含义不符,例如:建议、需要、加强等,在评教中表示教师需要改进之处,应替换到消极词表中,因此需要利用Synonyms中文近义词库进一步核准情感词典集合中的积极性与消极性。

Table 2. Emotional dictionary collection
表2. 情感词典集合
4. 模型生成与结果分析
4.1. 模型生成
在情感分析前,需要对情感词典集合进行训练 [10],代替SnowNLP包中原有模型,训练方法如下:
首先找到SnowNLP的安装目录,在目录下的sentiment文件夹保存着SnowNLP进行情感分析的默认语料文件(pos.txt,neg.txt)与通过训练该语料得到的模型,如图3所示。其中sentiment.marshal.3是Python3版本的序列化模型文件,sentiment.marshal是Python3版本之前的序列化模型文件。
再指定生成的情感词典集合中的积极词表(train.pos.txt)和消极词表(train.neg.txt),通过SnowNLP提供的模型训练与保存方法训练和保存模型,并替换原sentiment目录下的模型。
1) #训练模型
sentiment.train (‘train.neg.txt’, ‘train.pos.txt’)。
2) #保存模型
Sentiment.save (‘sentiment.marshal’)。
4.2. 结果分析
调用训练好的模型对学生评教数据进行情感倾向分析,获得情感分值如图4所示。通过观察数据结果可以发现,积极评论的情感分值基本大于0.6,消极评论的情感分值与之相反。由此,将评教数据中情感分值小于0.6的统一用0表示,情感分值大于0.6的用1表示,实现积极与消极情感分值的归一化,如图5所示。

Figure 5. Emotional scores normalization
图5. 情感分值归一化
对情感倾向分析结果进行分类统计,获得5个维度的积极与消极评教数,见表3。将结果生成饼状图与叠加柱状图,如图6,图7。其中备课环节评教数最多,占总评教数的46.9%,且该环节的积极评教数与消极评教数之比约为4:1;作业评讲环节评教数最少,只占总评教数的4.7%;课堂管理与课堂互动环节的积极评教数与消极评教数之比约为1:3与1:2.5;语言表达环节的积极评教数与消极评教数之比约为1:2.5。

Table 3. Statistics of teaching evaluation
表3. 评教数统计
综上所述,可以发现:
1) 学生对本课程授课过程中的教师备课环节最为关注,且该环节积极评论数远高于消极评论数,证明教师在该环节准备充分,应继续保持。
2) 学生对作业评讲环节关注度最低,证明该环节存在感较低,学生对该环节的重视度不够。教师应在授课过程中适当提高讲评环节的时间占比,从而增强学生对作业讲评的重视程度。
3) 课堂管理与课堂互动环节消极评论数多于积极评论数,证明教师在授课过程中对课堂纪律要求不够严格,且在调动学生积极性、活跃课堂气氛方面有所欠缺,需要在后期教学过程中,加强课堂管理,并努力提高授课技巧。
5. 结束语
本文在教育现代化背景下,利用SnowNLP对学生评教文本数据进行情感倾向正负性分析,再经过统计与可视化展示,判断教师在授课过程中存在的优缺点,为教师改善教学过程提供了理论依据。