A Corpus-Based Research on the Assessment of CET Vocabulary List
This study uses the COCA5000 vocabulary, CETC and iWriteBaby corpus as reference objects to examine the CET vocabulary list. The results of the comparison between CET and the three reference objects show that the CET vocabulary contains most of the common high-frequency words of the three comparison groups, but there are also CET_ONLY words, that is, words that have never appeared in the three reference objects and some low-frequency words in the common words. Based on this and characteristics of the vocabulary list, this study puts forward corresponding reference suggestions for the compilation and optimization of the CET vocabulary list, in order to provide more convenient conditions for vocabulary learning of English learners in Chinese colleges.
CET Vocabulary List
全国大学英语四、六级考试(College English Test),简称“CET”,是“由教育部主办、教育部教育考试院主持和实施的大规模标准化考试,其目的是促进我国大学英语教学工作,对大学生的英语能力进行客观、准确的测量,为提高我国大学英语课程的教学质量提供服务。”在我国,大学英语四、六级考试被用于测试中国在校大学生的综合英语能力,且能否通过该测试这一标准也被广泛用于各高校中,作为能否取得毕业证的门槛,可以说,不管在毕业升学还是求职等各方面,能否通过大学英语四、六级考试以及能否在其中取得好成绩,对我国在校大学生来说至关重要。
CET全方位考察大学生的英语综合能力,而在英语学习中,词汇是公认的英语听、说、读、写能力发展的基础,因此在备考大学英语四、六级考试时,词汇学习的重要性不言而喻。为了便于考生备考,2016年版的大学英语四、六级考试大纲新增了四、六级考试词表。一般来说,词表由一定数量的词汇构成,其中包含的词汇通常按照特定原则选定,因此不同研究人员开发的词表都各不相同。英语词表能帮助二语学习者提高词汇学习效率和自主学习能力,对二语学习者词汇学习具有重要作用,此外成熟科学的词表还能作为英语教学和测评的依据,成为教学大纲甚至教学材料的参照。
根据大学英语四、六级考试大纲所言,大学英语四、六级词表的编制参考了多方词表、词典及词库中的词汇,并且“词目的选择遵循‘以定量分析为主,定性分析为辅’的原则”。通过查阅文献可知,国内对于大学英语四、六级词表的研究屈指可数,受国外词表相关研究的启发,本研究从本族语语料库、试题语料库和中国大学生英语学习者语料库三类语料入手考查大学英语四、六级词表,研究问题包括:1) 大学英语四六级考试词表与各个参照对象的对比结果如何?2) 上述对比结果对CET词表编制有何启示?
大学英语四、六级词表来源于全国大学英语四、六级考试大纲(2016版),也是近些年最新版本,包含5418个词目。由于全国大学生英语考试分为四级和六级两个等级,与考试等级相对应,词表也对其中词汇进行了四级词汇和六级词汇的分类标注。如上所述,该词表在一定程度上代表期望中国大学生英语词汇学习应达到的水平。
COCA5000词表来自于由学者Mark Davies创建的美国当代英语语料库(Corpus of Contemporary American English,简称COCA),包含COCA中总频次排序前五千的词目及相关一系列数据。COCA由总计约10亿词、共八个类型且分布基本均匀的文本构成,总体上文本类型广泛,词量庞大,且该库语料逐年更新,在本族语词汇方面具有代表性。
大学英语四六级考试试卷语料库(College English Test Corpus),简称CETC,是本研究自建语料库,其中包括2016年至2024年期间大学英语四、六级考试的卷面文本,总计超三十八万词。需要特别说明的是,由于听力原文材料以语音输出,而非词形,所以在本研究中暂时不做处理。
iWriteBaby Chinese Learner English Corpus,即iWriteBaby中国学习者英语语料库(以下简称iWriteBaby语料库),由北京外国语大学许家金教授团队加工整理,最初发布于2019年,而后在2022年进行了更新,总规模超八百万词,攘括全国二十三个省份、四十八座城市、六十九所不同水平大学的一百五十四个专业学生的写作文本,入库的作文题超一千个。该语料库词汇容量大,在地域、年级及主题等各类因素上均取样广泛,在中国大学生的用词总体特征方面有一定代表性
大学英语四、六级词表直接取自全国大学英语四、六级考试大纲(2016版)。由于本研究在词目化(lemmatization)的实际操作中只考虑词形,最后产出的词目表中的词目实际上属于“modified lemma (Stoeckel, 2019)”
COCA5000词表分开放置词形相同却拥有不同词性的词汇,同上,在本研究中利用Microsoft Excel中的“数据–合并计算”功能将这类词全部归并处理,最后该词表中包含4380个词目。
大学英语四、六级考试试卷语料库(College English Test Corpus)是本研究自建语料库,在利用Microsoft Word中“插入–对象–文件中的文字”功能将2016年至2024年期间大学英语四、六级考试的各个试卷文档合并后,去除中文字符及标点,而后使用Perl软件对余下的文本进行清洁,生成CETC的类符词汇表。将该类符词汇表导入Treetagger软件进行赋码处理,而后生成CETC词目表。
iWriteBaby语料库词表通过BFSU CQPweb平台导出,经Microsoft Visual FoxPro进行符号清理后,借助Treetaggger软件进行词性标注,而后形成词目表。
为进一步确保以上操作生成数据的准确性,本研究对生成的词目表进行人工查验。此外为实现数据计算的统一化,借助Microsoft Excel人工计算各词表每百万词标准化词频并全数据应用,得出最终归拢的所有词目的每百万词标准化词频。
最后,利用Microsoft Excel进行词表对比。通过Excel中“开始–条件格式–突出显示单元格规则–重复值”这一功能,将CET词表分别与COCA5000词表、CETC词表和iWriteBaby语料库产出的词表两两进行比较,得出各两词表之间重复的词汇,即共有词。在此基础上,利用“开始–筛选”功能筛出两表共有词,而后便可生成两表各自独有词。通过以上一系列操作,最终得出的数据表包括CET-COCA,CET-CETC和CET-iWriteBaby。
本研究选用的COCA5000词表来源于COCA语料库网站,其中包含美国当代英语语料库中排名前5000的词目(lemma),经统一化处理后词目总计4380个。CET词表和COCA词数对比结果如
通过查看COCA5000词表可以知道,COCA5000词表中所有词目的累计词频占COCA总库词量的约83%,而CET词表和COCA5000两词表的3144个共有词目的累计词频就已经占了COCA总库的约77%。结合
词目总数 |
共有词数 |
独有词数 |
|
CET |
5403 |
3144 |
2259 |
COCA |
4380 |
1236 |
COCA频段 |
COCA词目排名 |
CET词目在各频段总数 |
1 |
1~1000 |
903 |
2 |
1001~2000 |
744 |
3 |
2001~3000 |
650 |
4 |
3001~4000 |
630 |
5 |
4001~4380 |
217 |
由此来看,参照COCA5000而言,虽然CET词表中这些词目总体上在COCA总库中体量少,总频次占比大,但是结合CET词表的总体词量考虑,其中只有不到60%的词目在英语本族文本中的使用频率居于前列,剩下的2259个词目并未出现在COCA前5000个词目中。经初步推断,这部分词的选用原因之一可能是为了满足中国大学生英语学习者更高水平词汇学习的需求,因为2259个CET独有词中有1084个都属于大学英语六级词汇,而这部分词汇相较于上述位于前列的高频词汇,恰恰不管在词形还是词义方面都更为复杂,属于中国英语学习者词汇学习中的“高级词汇”。由于COCA5000词表的词量限制,更为实际具体的原因需要利用其他参照对象进一步考察。
本部分内容就CET词表和CETC (College English Test Corpus)的对比结果进行分析。CETC中的语料是大学英语四、六级考试的所有卷面内容,经处理有10,872个词目,词数总计382,778个。经与CET词表对比,两者共有词数分别占两表词目总数的81.95%和40.74%,两表独有词则分别占各表的18.05%和59.26%,两表词目总数对比具体数据如
词目总数 |
共有词数 |
独有词数 |
|
CET |
5403 |
4429 |
975 |
CETC |
10,872 |
6443 |
CET词表与CETC的共有词仅占CETC词目总数的不到50%,导致这一情况的原因有一部分是CETC本身的词量较之CET词表就要大一倍。除此之外,从上表能观察到的结论似乎很有限。但当在词目数基础上加上各词目的累计频次会发现,尽管CET词表对CETC的词目覆盖率很低,但总体词目频次覆盖率却能达到85.15% (见
CET |
覆盖率(%) |
||||
CETC |
词目总数 |
10,872 |
已覆盖词目数 |
4429 |
40.74 |
词目累计总频次 |
382,778 |
已覆盖词目总频次 |
325,952 |
85.15 |
当把CET词表和CETC的共有词按频次降序排序后进行观察,显而易见地是两表共有词中排序前一百的词绝大部分都是功能词,如冠词a、an和the;代词you、we和they等;介词to、of、in、on和from等;连词and、but和so等(见
而除了上述功能词外,前一百词中还有部分实义词。而这些实义词中,有一部分词受题干影响反复出现,如question、answer、sheet、section、mark、choice、letter、passage和base等。经查看不受题干影响或者说受题干影响较小且使用频次依旧居高的实义词有people、say、make、good、time、take、change和go等。以上这些词汇也常出现于其他词表的高频词段中,因其普遍具有包括通用性、释义和替代能力强及搭配构词能力强等诸多词汇特征,也通常被称为核心词汇(Carter, 1987)
除了上述高频词外,CET词表和CETC词表共有词中还存在一部分频次更低的词汇。
此外,经CET词表和CETC对比后也产出了双方的独有词。一方面,CET词表中的独有词即表明这部分词在CETC中从未出现过,而这部分词被编入CET词表是否合理还需要和本文其他部分的对比结果相结合分析后才能做出判定,因为CETC部分的词汇仅仅是大学英语四、六级考试的卷面文本,这些语料词汇具体来说更倾向于输入性词汇,总体上并不能代表大学英语四六级学习所需词汇。
另一方面,CETC独有词中更加值得注意的是其中的高频词汇。由于CETC中的语料是卷面文本,因此最后生成的词表中有小部分被高频用作选项符号的英文字母。当把它们排除,剩下的高频词主要由派生词和国家名称构成,一般来说国家名称并不会列入词表,更多地是作为专有词汇列入国家地理类的专有名词词表。而为避免行文累赘,关于CETC独有词中的高频派生词,本文将在后半部分统一讨论。
词目总数 |
共有词数 |
独有词数 |
|
CET |
5403 |
5142 |
261 |
iWriteBaby |
17,936 |
12,794 |
iWriteBaby语料库的总词量是CET词表的三倍多,也是因此,CET词表对iWriteBaby语料库的已覆盖词目总数比之CET词表对CETC的已覆盖词目数要更多。结合CET词表与CETC的对比分析结果来看,CET词表对iWriteBaby语料库的词目覆盖率更低,仅有28.67%,但词目总频次的覆盖率却高得多,超90% (见
CET |
覆盖率(%) |
||||
iWriteBaby |
词目总数 |
17,936 |
已覆盖词目数 |
5142 |
28.67 |
词目累计总频次 |
8,046,643 |
已覆盖词目总频次 |
7,440,665 |
92.47 |
在CET词表与iWriteBaby语料库共有词中,前一百个词的累计频次为5,018,391,占iWriteBaby语料库词汇总数的62.37%。通过观察
接下来着眼于CET词表和iWriteBaby语料库共有词中的低频词进行分析。同上,把iWriteBaby语料库词表中的词频进行每百万词标准化,提取其中每百万词频次 ≤ 10的部分及相应的总数量,结果如
以上三个部分是CET词表与三个参照对象——COCA5000、CETC和iWriteBaby语料库的对比结果。总体来看,CET词表中包含了各个参照对象中的绝大部分高频词,三组对比的前2000共有词目重合率约为75%。从
此外,也有部分词汇尽管在各个参照对象中都有出现,但使用频次却极低,这些词加之在三个参照对象中都从未出现过的词汇,它们被收录进CET词表中的合理性值得思考。
在考虑这个情况之前,还需要厘清一个问题,即在CET词表中,中心词后单列的派生词的价值和科学性。根据大学英语四、六级考试大纲所言,“派生词原则上不单列(特别常用的除外)……如果形式上是派生词,而实际上已不被看成派生词,则单独列出。”一方面,“特别常用”的标准是什么,同时这些词在各类语料中的实际使用情况也不得而知。另一方面,“形式上是派生词而实际上不被看作派生词”指的是派生词已然与中心词没有了相似的词义,或是两者词义相差较大,如remark和remarkable,proceed和proceedings等。鉴于此,加之许多形式派生词的使用频率已然比CET词表中的中心词还要高,那么为何不将这些词单列出来也需要思量。
一直以来,在词表编制的选词单位这一问题上就存在争议,其中主要聚焦于是以词目(lemma)还是以词族(word family)为选词单位更为合理。词族由一个基本词及其所有派生和屈折形式组成,以词族为单位编制词表的底层逻辑就是英语学习者一旦知道基本词,二语学习者几乎毫不费劲地就可以理解该词族中其他派生形式词汇的意思,不必单独学习就可以理解(Bauer & Nation, 1993)
回到本研究中来看,CET词表形式上更偏向以词族为单位,但它并没有呈现中心词的所有派生词,而是只列举了所谓“特别常用”和“形式是派生但实际不被看作派生词”的派生词。一方面,就实际使用情况来说,CET词表的派生词中并非全都“特别常用”,反而有的派生词使用频次不低却并未列入词表派生词中。另一方面,当一个词形式上是派生词,但实际上已经不被看作派生词,那么为何还要将其放在形式上的中心词下,这不免会误导词表使用者。
当加上所有列出的派生词再计算CET词表对三个参照对象的覆盖率,可以得到如
CET派生词 |
覆盖率(%) |
||||
COCA5000 |
词目总数 |
4380 |
已覆盖词目数 |
855 |
19.52 |
词目累计总频次 |
830,134,384 |
已覆盖词目总频次 |
39,415,997 |
4.75 |
|
CETC |
词目总数 |
10,872 |
已覆盖词目数 |
1715 |
15.77 |
词目累计总频次 |
382,778 |
已覆盖词目总频次 |
25,272 |
6.60 |
|
iWriteBaby |
词目总数 |
17,936 |
已覆盖词目数 |
2194 |
12.23 |
词目累计总频次 |
8,046,643 |
已覆盖词目总频次 |
404,846 |
5.03 |
注:COCA5000行的覆盖率数据是基于COCA前五千词目的累计频次计算而得,不是COCA整库数据。
COCA频段 |
COCA词目排名 |
CET派生词在各频段总数 |
1 |
1~1000 |
83 |
2 |
1001~2000 |
199 |
3 |
2001~3000 |
248 |
4 |
3001~4000 |
236 |
5 |
4001~4380 |
89 |
同样地,与CETC和iWriteBaby语料库对比,CET词表派生词中每百万标准词频 ≤ 10的词数在两库中分别有896个和1684个,而其中位于两库词表前两千词行列的词数却远远低于低频词,分别只有332个和303个(见
当交叉分析提取上述所有对比组产出的低频词后,整理出
F = 0 |
SF ≤ 10 |
||||
CET_ONLY(COCA) |
CET_ONLY(CETC) |
CET_ONLY(iWriteBaby) |
CET_CETC |
CET_iWriteBaby |
|
中心词 |
2259 |
975 |
261 |
1568 |
3050 |
派生词 |
1750 |
891 |
412 |
896 |
1684 |
在
综上所述,鉴于大学英语四、六级考试的重要性,CET词表对中国大学生具有重要意义。本研究通过三类语料库考查当前最新版CET词表的科学性与实用性,一方面在理论意义上,可以丰富国内在词表领域的研究成果,另一方面也具有实际应用价值,为进一步优化CET词表的编制提供启迪,以帮助提升国内大学生英语学习者的词汇学习效率和词汇水平。
在本研究中,通过分别参照COCA5000、CETC和iWriteBaby语料库对CET词表进行研究发现,尽管受三个参照对象词目总量差异的影响,CET词表对它们的词目覆盖率差异较大,但其对词目累计频次的覆盖却并非如此,除了CET词表对CETC的词目累计频次覆盖率较之另外两个参照对象稍低,这一情况可能是受卷面语料特点的影响。词目覆盖率低但词目累计频次覆盖率高恰恰说明三个对比组中的大部分共有词在三个参照对象中都有高频使用,这些词汇主要包括部分常用功能词和通用核心词汇,与以往研究结果相吻合。
而在分析参照对象独有词时发现其中存在一部分非低频词,它们与CET词表中的5403个中心词并不重合,而是出现在中心词后的派生词中。由此引出关于CET词表编制的问题。CET词表虽然形式上是以词族为单位,但它却并不像其他以词族为单位的词表,将派生词全都陈列出来,而是仅列出“使用频次极高”或“形式上派生但实际上不被看作派生”的词汇,这样的做法或许是考虑到减轻学习者的词汇学习负担。可一方面,许多派生词使用频率并不高甚至在本研究中的三个参照对象中都没有出现过,而有一部分派生词词频实际上非常可观但却并未列入表中。另一方面既然某些形式派生的词实际上已经不被看作派生词,将其以一种附属形式列在中心词之下可能会对学习者词汇学习产生误导。加之经对比后发现CET词表中心词也存在一部分在其他语料库中都从未出现过的独有词以及共有词中还有一部分每百万标准化词频 ≤ 10的低频词,且还有部分中心词的实际使用频次远远不如意义相似的派生词,因而CET词表需要基于以上进行优化。
具体优化内容可以考虑基于词频,将已然不被看作派生词的非低频词和高频派生词同样单列作词表词目,然后将同时出现在三组对比中的独有词删去并把同样出现在三组共有词中的低频词进行精简化。此外,考虑到CET词表本质上是一个等级考试词表,该词表的编制在做到尽量精简的同时还要体现词汇的“等级性”。因此在优化CET词表时为了体现四级与六级的差异同时也为了满足部分学习者学习高级词汇的需求,词表需要对更高级词汇进行科学地选择与保留。而具体如何确定词量与选定词汇则需要进一步研究。