语法错误自动检查是自然语言处理领域的重要研究课题。尽管前人已经在该领域积累了丰富的经验,但是针对中国学生的英语语法错误自动检查研究尚处在初级阶段。本文对国外自动语法检查系统的理论和方法进行了梳理,详细描述了已有研究所采用的两大主流方法——基于规则的方法和基于统计的方法,并对这两者的优势和问题进行了评述。最后本文指出了今后自动语法检查系统可能采用的方法,并进行了试验,旨在对中国学生英语语法错误自动检查系统的开发提供启示。 Automatic detection of grammatical errors is an important research topic in the field of natural language processing. Although previous researches have accumulated a wealth of experience in this field, the automatic detection of grammatical errors for Chinese EFL learners’ English is still in its early stages. By reviewing the theories and methods of the relevant studies, this paper elaborates the two main methods used in the previous researches, i.e. the rule-based approach and the statistic-based approach, and makes a comment on their advantages and potential problems. Finally, the paper puts forward a possible hybrid method of building a system and makes a test, aiming to help develop a grammatical error checking system for Chinese EFL learners.
陈功1,王健2
1对外经济贸易大学英语学院,北京
2杭州绿湾网络科技有限公司,浙江 杭州
收稿日期:2018年8月24日;录用日期:2018年9月6日;发布日期:2018年9月13日
语法错误自动检查是自然语言处理领域的重要研究课题。尽管前人已经在该领域积累了丰富的经验,但是针对中国学生的英语语法错误自动检查研究尚处在初级阶段。本文对国外自动语法检查系统的理论和方法进行了梳理,详细描述了已有研究所采用的两大主流方法——基于规则的方法和基于统计的方法,并对这两者的优势和问题进行了评述。最后本文指出了今后自动语法检查系统可能采用的方法,并进行了试验,旨在对中国学生英语语法错误自动检查系统的开发提供启示。
关键词 :语法错误,自动语法检查,基于规则,基于统计
Copyright © 2018 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
书面语中的语言错误多种多样,如拼写错误、语法错误、语义错误等。一直以来,这些错误只能由人工进行检查和纠正。20世纪70年代之后,随着自然语言处理技术的不断进步,研究者开始探索利用计算机对各种语言错误进行自动检查,自动查错成为研究热点。尤其是20世纪90年代以来,随着越来越多的人开始借助计算机进行语言书写和交流,自动语法检查研究的应用范围不断拓展,并被广泛运用于文字处理系统、语言校对系统,以及计算机辅助语言学习(CALL)等领域。除了作为文字处理系统(如Microsoft Word)必备的内嵌模块,语法检查系统开始以独立软件的形式出现,服务于更多的用户。
为了实现语言错误的自动检查,首先需要对语言错误进行归类,以确定自动检查的目标或范围,进而选择合适有效的检查技术。根据不同的研究条件或研究目的,语言错误大多可以被分为以下四类 [
除了上述分类方法,也可以从词类的角度划分语言错误。例如,介词错误 [
早期语法检查系统主要是基于字符串匹配(string matching)或模式匹配(pattern matching),例如,最早广泛使用的语法检查工具Unix Writer’s Workbench [
20世纪90年代之后,基于句法分析的语法检查工具在具体实现方式上逐渐多元化。随着大规模语料库的陆续建成,词性赋码工具(如CLAWS)的不断成熟,以及宾州树库的推出及其应用的不断增多,以统计(或数据驱动)为基础的语法分析开始快速发展。由于基于统计方法省时省力,很快受到自然语言处理界的青睐。不过,在语法错误自动检查研究领域,这一发展趋势还不是很明显 [
对于自动语法检查实现方法的分类,Naber [
基于规则的方法是自然语言处理领域最为常用的理性主义方法 [
1) 基于正确规则的语法检查
在基于规则的方法占主导的时代,使用计算机识别并处理书面语语法错误的方法有三种:或采用模式匹配,或使用句法分析器(parser),或将两者相结合 [
模式匹配的理念非常简单。在匹配模式下,所有的模式必须与相对应的搜索空间完全一致,否则匹配失败。这就是最简单的模式匹配,有的研究也称之为“字符串匹配” [
基于正确规则的语法检查在自动语法检查研究领域具有重要地位。该方法需要的是一部正确的语法,或者说是一部本族者语法。句法分析器5根据配备的语法知识对输入文本做完全的句法分析,每一个句子输出一个树形图。如果语法分析失败,则认为该句输入有误。简单来说,句法分析是将一维的线性串转换为二维结构的一种过程 [
2) 基于错误规则的语法检查
对于语法检查系统而言,模式匹配通常指的是“错误模式”与输入语言错误的匹配。这种“错误模式”是研究者从错误语料中总结出的词或词性搭配错误的规则,并加以形式化描述的结果 [
其一,约束松弛。
作为不合语法句子分析中最常用到的技术,约束松弛首先预设的是,语言中存在着各种各样的约束。这些约束条件是语法的一部分,可以判断输入文本是否具有合语法性。简单来说,英语中要求主语和谓语的数要一致,“数”就可以看作是主谓一致的约束条件。输入句法分析器的文本一旦无法满足该约束,分析过程就会终止。为了使分析继续,最终输出对学生有用的信息,我们需要对该约束进行松弛,让分析器将其忽略,直至完成分析。之后,通过查找松弛的约束条件,便可确定错误所在。使用了约束松弛技术的语法检查系统包括:IBM公司开发的Epistle和Critique,Chen & Xu [
其二,错误语法。
Sanders & Sanders [
3) 基于规则的方法:优势与问题
基于正确规则的句法分析方法之所以被语法检查领域的研究者持续关注,是因为该方法体现了两大优势:第一,可以检查出句子中长距离依存关系错误,而不仅仅局限于局部错误;第二,如果语法足够完备,则能够分析各种类型的句子,而不需要预置其他信息。不过,构建一部完备的语法绝非易事。这也就意味着,一旦输入的句子结构是分析器没有涵盖的语言知识,句法分析器就无法输出句子结构的分析结果。因此,构建一部覆盖所有语言知识的语法,应该是不断追求的目标。
基于错误模式匹配的语法检查之所以还在发挥作用 [
不过,错误模式匹配也具有一些无法克服的问题:第一,所关注的语言错误太过具体化,而且无法涵盖学习者语言中的其他问题,因此,检查中可能会遗漏很大一部分语法错误;第二,模式匹配仅考虑输入语言在线性顺序上的问题,而无法关注语言的层次性或结构方面的错误;第三,即便是线性顺序上的语法错误,仅凭模式匹配也无法解决,如主谓一致问题。显然,对于这类错误,采用一例一错的模式匹配反而是最不经济的办法。
和模式匹配相类似,基于错误规则的句法分析查错准确率高。只要预先将错误规则写入语法,句法分析器就能检查到相关错误。同样,约束松弛的查错准确性也比较高。不仅如此,约束松弛技术还能够确保句法分析器顺利完成整个句子的句法分析 [
但是,在考虑采用错误规则和约束松弛技术时,需要注意三方面问题:第一,学习者错误很难穷尽。为了尽可能覆盖所有错误,我们必须编写足够多的规则,而有些错误规则的编写较为困难;第二,错误规则的条件太过于具体,一条规则只能对应一类错误,研究者以有限的时间和精力难以完成。Murphy,Krüger & Grieszl [
在自然语言处理领域,基于统计的方法由来已久。不过,具体到自动语法检查的实际应用领域,直到上个世纪90年代,基于统计的方法才开始逐渐应用于研究当中。该方法主要依赖于大型语料库来获取语法知识,系统通过对输入文本的关键特征进行统计或计算,然后通过句子成分的权重来判断句法关系,实现语法检查的目的。
基于统计的语法检查系统的实现可以从两个视角来考察:一是分类方法(classification approach);二是语言模型(language modeling)的方法 [
1) 基于分类方法的语法检查
基于分类的方法本质上属于机器自动学习的范畴,而大多数基于分类的语法检查系统采用的是有指导的学习方式。其主要思想是:首先使用事先定义好的类别或范畴标记对文本中的实例进行人工标注;标注好的文本作为训练数据对分类器进行训练;之后,机器根据标注好的训练数据进行自动学习,获得某一类词,如介词的用法模型,包括一些上下文特征。在实际使用中,计算机会根据学习得到的知识对新输入的文本进行分类,计算新文本中介词的用法是否与训练数据提供的特征相近,如果差距过大,则说明可能有错。
不同研究所使用的分类器和训练数据有所不同。对于分类器而言,主要有:最大熵分类器,支持向量机,以及决策树等。早期的研究主要使用的决策树(如Knight & Chander [
2) 基于语言模型的语法检查
统计语言模型就是表示语言基本单位的分布函数 [
基于统计语言模型的语法检查理念较为简单。对于统计语言模型来说,语言中的任何一个句子(符号串)都是可以接受的,只是接受的可能性(概率)不同。因此,在实际操作中,研究者需要为合语法的句子设定一个最低阈限,输入文本一旦低于这个值就会被判定是错误的。
将语言模型运用到语法检查研究始于Atwell [
3) 基于统计的方法:优势与问题
其实,不论是基于分类的方法,还是基于语言模型的方法,它们在研究中的广泛使用都说明,最近几年基于统计的方法开始备受关注。究其原因,主要是该方法克服了基于规则方法的几点不足:第一,避免了手工编写规则的耗时耗力;第二,避免了基于规则的系统所面临的容错性问题。因为对于基于统计的系统来说,输入文本不论对错只有概率上的不同。
不过,基于统计的方法也有自身较难克服的问题:第一,最突出的就是数据稀疏的问题,即无法获得足够多的人工标注语料来训练系统。Leacock et al. [
学习者语法错误形形色色,与母语者差异较大 [
近几年来,语法检查研究者们将两种方法相结合的呼声越来越高。Gamon et al. [
综合考虑上述方法的优劣,要想构建一个更好地适用于中国学生的英语语法错误自动检查系统,采用基于正确规则的方法构建语法检查系统较为理想。同时考虑到基于统计的方法的优势,下一步研究可采用通过大规模语料库统计得到的语法规则,即“采用规则和语料库统计相结合的方法” [
第一,规则来源不同。下一步研究所基于的正确规则来自语料库驱动的型式语法(Pattern Grammar) [
第二,规则获取方式不同。型式规则的获取涉及两方面的资源:一是大规模真实语料;二是语言学家自身的语言学修养。具体来说,在整个语法系列的编撰过程中,除了语料库驱动的方法,语言学家的人工处理也占据了很大的比重。Francis & Sinclair [
为了对上述假设进行验证,本研究选取了型式语法中的两个动词型式(V so/not, V n for n),及其型式中的少量动词进行了试验。这样的动词型式错误常出现在中国学习者的作文中,学生很容易将动词和介词(或副词)的搭配用错,但是很多语法检查软件却无法查出。实验大致步骤如下:
首先是选取试验动词。从Francis et al. (1996)中随机选取V so/not、V n for n这两个型式下的动词若干。
其次,将链语法分析器(Link Grammar Parser)作为句法分析工具。根据链语法分析器的要求对动词下标进行相应的设置和添加。链语法词典中的单词具有唯一性,因此,有些用法较多的单词需要以下标作为区分,如run. n和run. v的下标就是用来区分词性的。由于型式语法对单词的划分主要是通过型式,因此笔者将动词所在的型式设计成了它们的下标,以传达型式语法“词汇和语法不可分”的理论主张。那么,动词型式V so/not和V n for n所属动词的分别是:“.v-sonot”和“.vn-for”,例如,think. v-sonot和bring. vn-for。
图1. 动词型式“V so/not”的分析结果
图2. 动词型式“V n for n”的分析结果
然后,为动词型式中具体的词项设计链名。由于所选取的两个动词型式中包含具体词项,如so/not、for,而链语法形式化体系并没有为它们设计链接子,因此,笔者将这些具体词项本身设计成了它们的链接子,以表示它们在动词型式中的特殊作用。
将相关动词内容存入链语法词典之后,运行链语法分析器;分别输入两个包含有目标动词型式的句子:“I believe so.”和“They bring water for me.”,获得结果如图1、图2。
由上述分析结果可以看出,将动词型式用于句法分析以及错误检查的方法是可行的。增加了动词型式规则的链语法分析器在分析包含目标动词的句子时,准确调用了本研究新编写的链语法规则,生成了非常具体的“SONOT”链和“FOR”链,为下一步的查错以及纠错提供了明确的指向。
国家社科基金青年项目“西方媒体和中国外宣媒体笔下的“中国故事”叙事语篇结构关系研究”(项目编号:17CYY016)。
陈 功,王 健. 自动语法检查方法研究述评 An Overview of the Methods on Automatic Detection of Grammatical Errors[J]. 计算机科学与应用, 2018, 08(09): 1372-1381. https://doi.org/10.12677/CSA.2018.89149
https://doi.org/10.1017/S1351324906004190
https://doi.org/10.1109/TCOM.1982.1095380
https://doi.org/10.1017/S0958344000002159
https://doi.org/10.3115/974499.974519
https://doi.org/10.1080/0958822900030102
https://doi.org/10.1007/BF00058766
https://doi.org/10.1016/S0004-3702(78)80015-0
https://doi.org/10.1080/0958822950080402
https://doi.org/10.1080/0958822910040205
https://doi.org/10.3115/1654629.1654635
https://doi.org/10.3115/976858.976865
https://doi.org/10.1093/ietisy/e88-d.7.1700
https://doi.org/10.3115/981732.981745
https://doi.org/10.3115/1609843.1609855
https://doi.org/10.3115/1614108.1614132
https://doi.org/10.1558/cj.v26i3.491-511
https://doi.org/10.1075/scl.4
https://doi.org/10.1093/applin/15.2.190