First Question Generation Method via Summarization and Syntax for English Reading Tests
In basic English teaching, the first question in reading tests is crucial, which acts as an examination entry point leading to subsequent questions and testing students’ comprehension and logical thinking skills. Existing methods generate questions that are divergent in content, hardly meaningful for pedagogical investigation, and heavily dependent on knowledge base and computational resources. Therefore, this paper proposed a method using summarization and syntax to achieve first question generation in a low-computing and high-efficient manner. The method selected key summary sentence from the English reading text to focus on the main idea of the text, and changed its presentation by applying translation rules. For the paraphrased key summary sentence, its subject-predicate-object components was analyzed to determine the subject of concern, matched the corresponding question words, and then generated the first question according to the grammatical rules. Experimental results show that the semantic similarity Bert Score and accuracy BLRU-4 of proposed method reach 67.15 and 16.07, respectively, which outperforms the baseline method in terms of syntax, semantics, and answerability. Experiments also demonstrate that the proposed method can effectively generate first questions adapted to English teaching scenarios.
Question Answering System
据教育部统计,我国基础教育中各学段的学生人数均呈现出增长趋势,对教育资源和教育质量提出了更高的要求。其中,英语学习能力的培养一直深受老师和家长们的关注,是中小学基础教育中的重要教学目标。英语作为一门全球通用性语言,具有广泛的交流价值,通过学习英语,学生可以锻炼自己的语言表达能力和跨文化交际能力,提升自身的综合素质。在英语课堂教学场景下,阅读理解测试是培养和考察学生理解能力以及逻辑思维能力的重要方式之一。该题型通常给定一篇英语短文,学生们通过阅读正文内容回答给定的问题。而给定短文所对应的问题中,第一个问题是最核心的,教师们会根据首个问题的方向以及学生对它的作答情况延伸性地提出后续问题,因此首个问题的提出是至关重要的。
在传统的教育模式中,英语阅读测试问题通常是由教师们手动提出。这种方式不仅要求教师具有丰富的教学经验,能够精准地把握出题的角度和方向,而且会耗费大量的时间和精力,同时人工提出的问题数量也非常有限。互联网时代,各种公众号推文、新闻报道不断更新教育资讯,学习通、慕课等线上教学平台也实时产生的大量在线学习资料。这些变化都给传统课堂授课的教育模式带来了极大的挑战。面对实时更新的教育资源,教师们需要花费更多的时间和精力跟进和了解最新动态,并从中筛选和整合出重要的信息融合到自己的教学实践中,才能确保教育资源的时效性和有效性。近年来,人工智能技术飞速发展,并逐渐渗透到各个领域,教育领域也不例外。越来越多的研究者利用自然语言处理和机器学习等技术,快速高效地搜索和分析大量的教育资源,提供多样化的教育服务,逐渐解放教师的脑力劳动,给学生们提供更加智能化的自主学习方式。为了解决传统教学模式中人工提问费时费力且难以实时更新的问题,开展英语阅读测试的自动化提问生成研究变得尤为重要。
当前提问生成方法主要可以分为基于规则和基于机器学习的两大类。基于规则的提问生成方法将陈述句按照一定的语法规则转化为相应的疑问句。Lewis等人
随着深度学习和自然语言处理技术的发展,问答系统领域出现了很多基于机器学习的相关研究。Zhou等人
综上,研究人员已经将人工智能技术应用到自动化问句生成中来,但目前仍存在一些问题。第一,基于规则的方法相对机械,且提问不具有针对性,导致生成的问句质量不高。第二,基于机器学习的方法需要大规模标签数据,且具有领域和语言的限制性,在教育场景中的适应度较低。为了实现简单快速的自动化提问生成,本文提出采用摘要和句法技术进行首个问句生成的方法,协助教师考察学生们的阅读理解能力,带给学生更智能化的学习体验。
英语阅读测试旨在培养学生对英语文章的理解能力、阅读技巧和逻辑思维能力。这类题型通常要求学生阅读一篇给定的英语文章,然后回答与文章相关的一系列问题。英语文章中包含的信息种类多样,常见的格式有文本、图片、表格,甚至视频音频等。文本是最为常见的一种形式,因此本文选取纯文本格式的英语正文作为阅读测试的研究对象,相关定义如下:
定义2:语句向量。为了统一英语正文中句子的向量维度,降低语句向量的稀疏度,本文从英语教育领域中选取m个关键词作为语句特征,其中每个关键词由ζ维的语义向量表示。对于正文中的任意一个语句d,若包含特定关键词wi,i∈[1, m],则他的语句向量中对应维度的特征即为该关键词的语义向量 ,反之则赋为全零的ζ维向量。把m个ζ维向量 连接起来构造的向量称为语句向量,记为 。
定义3:正文语义矩阵。对于一个英语正文文本D,假设其包含 条语句,每条语句对应的语句向量为 , ,则D的语义矩阵定义为:
语义矩阵
是一个t行、p列的二维实数矩阵,其中
。例如,取m = 100,ζ = 200,n = 20,对于
定义4:摘要语义矩阵。摘要是对英语阅读材料正文的概括和总结。本文定义摘要是从正文中抽取出的k个陈述句,记为 ,其中,陈述句si的语句向量为 , 。与定义3类似,摘要S的语义矩阵可以定义为一个k行,m × ζ列的矩阵 :
摘要包含了英语正文中的主要观点、关键信息和重要结论。相较于正文,摘要虽然在篇幅上大幅缩短,但语义上高度凝练了原文的关键信息,使读者能够快速了解文章的中心思想。
定义5:命名实体。命名实体是文本中具有特定意义或者指代性强的实体。这些实体通常是专有名词,如人名、地名、组织机构名、日期和时间等具有明确语义类别的词或短语。命名实体与其类别一一对应,记作(E, E_label)。例如,命名实体“北京”,其对应的实体类别为地名“LOC”。由于这种定义的规范,命名实体带有明确的语义特征,具有极强的考察意义,经常作为自然语言处理任务中的研究对象。本文定义了18种命名实体的类别,包括PERSON (人名)、ORG (组织机构)、PRODUCT (物品)、LOC (地名)、DATE (日期)、PERCENT (百分比)、QUANTITY (数值)等,详见参考文献
定义6:疑问词。对于一个问句,疑问词是必不可少的成分。疑问词决定了问句考察的知识类别,例如疑问词“when”考察时间信息,“where”考察地点信息。由于本文选择合适的命名实体作为考察对象,因此疑问词是与命名实体类型相对应的。本文给定了六种疑问词,分别为“where”、“when”、“who”、“what”、“how many”和“how much”,统一记为wh*。
第一个提问作为考察的着手点,往往高度凝练英文正文主旨,指明阅读测试的考察方向,后续提问将围绕其内容延续性展开。为此,本文采用摘要技术聚焦英语正文中的关键内容,并在此基础上借助句法分析技术针对性地提出首个问句,总体框架如
由于给定的英语正文中所含的信息量多而杂,很难直接抓住文章的重点来考察学生,本文借助摘要技术聚焦正文的主旨内容。虽然目前已有很多基于深度神经网络生成摘要的方法,但这些方法往往需要较多的资源和较高的算力,而本文面向教育场景下的英语阅读测试,出于简单快速高效的考虑,本文采用Text Rank
摘要概括了正文的关键内容,其中每个陈述句都表达了完整的语义信息。当要求生成首个问句时,我们只是针对其中的一个句子信息进行提问,因此需要从摘要中选择出最重要的一个陈述句作为核心摘要句。为此,本文考虑每个摘要语句与正文的内容相关性,我们希望核心摘要句尽可能多地覆盖正文中的重要语义,从k个候选摘要语句S中选择与正文语义相似度最高的一个陈述句作为核心摘要句skey。
在本文中,摘要陈述句si由语义向量表示,正文由多个语句组成的语义矩阵 表示。为了比较摘要陈述句覆盖的正文语义信息量,我们计算摘要语句与正文中每个句子之间的相似度,再通过求和的方式得到该摘要句与正文文本的内容相关性。本文采用交叉熵作为评价候选摘要句与正文语句间语义相似度的指标,它衡量的是两个向量之间的分布差异性。因此,我们对交叉熵进行取负操作表示二者的相似性,公式如下:
(1)
其中,t是英语正文中所含的句子总数,m × ζ是语句向量的维度。相关性得分越高,说明该候选摘要句中涵盖的正文信息越多。因此,本文选择相关性最高的候选摘要句作为核心摘要句skey,进一步用于下文中的问句生成。对于3.1节中的例子来说,我们套用上述公式,分别计算3个摘要语句与正文之间语义相似性,最终确定相似性最大的摘要句为:“Magellan’s fleet completed the circumnavigation, providing us with experiential evidence that the Earth is a sphere.”将其作为核心摘要句进一步用于后文中的问句生成。
本文考虑到选定的核心摘要语句是从正文中直接抽取的句子,若直接面向其进行问句生成,会导致问句中的原文线索过多。学生可以直接在正文中找到原句完成作答,无法有效考察学生的理解能力。因此,本文对选定的核心摘要句子进行转译,即在不改变句子语义的前提下,对其中的词汇和句式进行改动,使得转译后的句子能够更加灵活地考察学生们的掌握程度。如下是本文提出的实现摘要陈述句改写的规则:
a) 同义词替换。同义词替换是最基本的改写方法。这种方法依赖于一个同义词和反义词的词典,如Word Net。通过查找词汇的同义词集来替换原句中的词汇,或者将句子中的词汇替换为其反义词和否定的组合来实现句子的变体。例如,原句“He completed the task quickly.”经过同义词和短语替换可以改写成:“He finished the task in no time.”
b) 语态转换。主动语态和被动语态之间的转换同样是一种有效的改写方法,它可以在改变句子的顺序结构的同时保持语义不变。例如,原句“The chef cooked a delicious meal.”可以改写为被动句:“A delicious meal was cooked by the chef.”
c) 复合句简化。复合句可以通过调整句式结构改写为简单句,在保持原句的语义不变的前提下,使得改写后的句子更加易于理解。对于定语从句或状语从句,可以将其转化为相应的短语修饰主句,进而实现句子结构的简化。具体来说,原句“The book, which is very interesting, is on the table.”经过句子结构调整,可以改写为:“The very interesting book is on the table.”
d) 简单句复杂化。与规则c类似,简单句同样可以通过改变句子的句式结构来增加多样性和丰富性。对于句子结构中的主语或宾语成分,可以将其改写为相应的名词性从句。此外,原句中的修饰性短语可以转化为定语从句或状语从句的形式,增加句子的复杂性。例如,简单句“He decided to buy a digital camera online.”可以改写为宾语从句“He decided that he would buy a digital camera online.”
e) 句子顺序调整。句子的重排序可以在不改变句子语义的前提下,通过改变语序来突出不同的语义重点。对于简单句,可以采用状语前置、宾语前置的方法,或者调整形容词或副词在句中的位置;对于含有多个从句的复合句,可以调整主句和从句以及从句之间的次序。例如,原句“When I arrived, the meeting had already started.”改变主从句的顺序,可以改写为“The meeting had already started when I arrived.”
同理,我们可以制定更多相关的规则,此处不再赘述。多样化的规则可以将核心摘要句改写为多个版本。在本文中,我们针对核心摘要句skey生成5个转译版本 , ,并从中选择出一个变动最大的转译版本用于后文的提问生成。
(2)
在中小学的英语基础教育中,阅读测试题目是对学生英语阅读理解能力的有效考察工具,其中第一个问题往往可以最直观地反映学生对正文核心思想的掌握情况。针对转译后的核心摘要句,本文基于句法技术分析其中单词词性,并抽取出主谓宾成分信息,选定目标问句所要考察的对象实体,为其匹配相应疑问词,进而生成首个问句。
对于转译后的摘要语句
,本文分析其中的成分信息
a) 谓语识别规则。谓语通常是句子的核心动词或动词短语,同时识别与核心动词搭配的助动词、情态动词等。在句法依存树中,谓语是连接主语和宾语的核心词。
b) 主语识别规则。根据句法依存树查找与谓词直接相连且在其之前的名词短语(NP)作为主语,在依存关系树中,动词的nsubj依存关系通常指向主语。
c) 宾语识别规则。与主语类似,利用依存关系识别谓语动词的承受者。依存树中的dobj依存关系通常指向直接宾语。
由于摘要句中可能存在宾语从句、定语从句等,同样需要对复合句进行解析,将关系词指代的成分进行替换,并按照上述识别规则分析从句中的主谓宾信息。例如,对于3.3节中转译后的摘要语句,如
针对摘要句生成相关问句时,需要明确其中所要考察的信息,凝结与其相关的内容,进而针对性地提出问题,有效检测学生对该信息点的掌握情况。对于一个英语陈述句,主语是最重要的成分。它是句子的中心话题或动作的执行者。此外,根据命名实体的定义约束(详见定义5),它通常是文本中具有特定含义或者指代性强的实体,这赋予了其极强的考察意义。因此,对于摘要句对应的主谓宾三元组集合T,本文从中选择一个能够被识别为命名实体的主语成分作为目标问句的考察对象E,进而提高目标问句的质量和可回答性。
本文对核心摘要句中所有三元组的主语成分进行命名实体识别分析。识别过程主要依赖于三种规则,分别为大写字母规则、词典查找规则和上下文模式匹配规则。大写字母规则识别以大写字母开头的连续单词,这些单词通常是专有名词、人名等。词典查找规则需要依赖于一个命名实体词典,如Dbpedia,它包含了丰富的命名实体信息,涵盖人物、地点、组织、事件等多种实体类别,利用该词典可直接查找命名实体,并匹配其类别。上下文模式匹配规则利用上下文和特定模式的正则表达式来匹配实体。例如,日期通常包含月份名称和数字。如果一个单词是月份名称(如January),并且后续有数字,则该组合可能是日期。
综合以上三种规则,我们识别出主语成分中所有的命名实体。例如,4.1.1节中得到的主谓宾集合,对主语成分进行命名实体识别,同时得到其实体类别,结果为(Magellan, PERSON)和(Earth, LOC)。PERSON指的是该实体为人名,LOC指的是地名标签。
在英语文章中,一个命名实体出现的次数越多,则说明与其相关的描述篇幅就越长,其重要程度越高。因此,我们认为命名实体出现的频率代表其与正文主旨的相关度,它可以侧面反映了该实体在文中的重要性。在本文中,对于主语成分中识别到的所有命名实体,从中选择在正文中出现词频最高的作为考察实体E,并记录其对应的实体标签E_label。在上述例子中,若“Magellan”在正文中的词频高于“earth”,则保留(Magellan, PERSON)作为考察对象。反之,则保留(Earth, LOC)。
得到摘要句中的主谓宾三元组集合T,以及考察实体E后,便可以利用二者信息对三元组集合进行过滤筛选和合并重组,保留主语成分为考察实体的三元组。对于上述例子,假设确定的考察实体及标签为(Magellan, PERSON),则保留三元组
经过上述过滤操作后,仍可能存在多组主谓宾。但此时这些三元组中的主语成分都是选定的考察实体。为了方便后续问句的生成,我们将它们进行合并,记为
。其中,sub = E。例如,保留后的两个三元组可以合并为
由4.1节可知,目标问句针对考察实体展开提问。因此,疑问词可由考察实体的标签类别匹配获得。根据经验常识,在对每种类别的命名实体进行提问时,都有其相对应的疑问词。例如,对人名类的实体提问时会用疑问词“who”作为开头来引导问句,对地点类的实体提问时会用“where”,对时间类的实体提问时会用“when”等。为此,本文设计了函数Wh_Match,根据考察实体标签映射疑问词。即
。例如“Magellan”为“PERSON”人名类实体,故而匹配疑问词“who”。具体的匹配对应情况如
疑问词(wh*) | 考察实体标签(E_label) |
Who | PERSON/NORP/ORG |
Where | FAC/GPE/LOC |
What | PRODUCT/EVENT/WORK_OF_ART/LAW/LANGUAGE |
When | DATE/TIME |
How many | PERCENT/QUANTITY/ORDINAL/CARDINAL |
How much | MONEY |
具备经过滤重组后的摘要三元组t和疑问词wh*后,便可以套用语法规则简单快递地生成首个问句Q。在本文中,将陈述句转化为疑问句时,针对主语成分提问,则将主语位置替换为与其匹配的疑问词,之后拼接陈述句中的谓语和宾语成分即可。多个谓语宾语成分时,只需同样的方式在其后叠加。具体地,对于摘要三元组 和考察实体(E, E_label),为其匹配的疑问词为 ,根据语法规则,即可生成问句Q“wh*+ pre1+obj1, pre2+ obj2?”。例如,对于上述麦哲伦的例子,匹配到疑问词“who”,即可生成问句“who proved that the earth is a globe, led the circumnavigation?”。首个问句生成算法的伪代码如下:
算法1:问句生成算法(Sum QG)
输入:一篇阅读理解文章D。
输出:文章相关的首个问句Q。
Sum QG (D)
1: {ΨD← generate_semantic_matrix (D);
2: S←Top_k (Text Rank (D));
3: ΨS← generate_semantic_matrix (S);
4: forall si∈ΨS:
5: {RELi←relation (si, ΨD); //根据公式(1)计算相关性
6: }
7: skey←MAX (RELi), i∈[1, k];
8: ←Paraphrase (skey), i∈[1, 5]; //得到5个转译版本
9: forall i∈[1, 5]
10: {KLi←divergence (si, ); //根据公式(2)计算散度
11: }
12: ←MAX (KLi), i∈[1,5];
13: T←Triples ( ); //抽取主谓宾三元组
14: (E, E_label) ←MAX(NER (T_SUB)); //选择考察实体
16: t←Merge (Tk); //三元组合并
17: wh*←Wh_Match (E_label); //匹配疑问词
18: Q←“wh*”; //目标问句初始化
19: for < p, o> in t
20: {Q←wh* + p + o?; //问句生成
21: }
22: Return Q;
23: }
英语基础教育中的阅读测试题通常选用美国报刊的新闻文章作为阅读理解的背景信息。本文选取CNN/DM
对象 | 统计指标 | 值 |
英语正文 | 正文平均单词数 | 766.4 |
正文平均句子数 | 29.7 | |
句子平均单词数 | 17.8 | |
首个问句 | 平均单词数 | 13.9 |
由
生成问句和标签问句的句法相似性采用BLEU-4
如
英语正文:The head of China’s quality watchdog is reported to have resigned over the tainted baby milk scandal that has killed four children and sickened nearly 53,000 others. The official Xinhua News Agency said Li Changjiang had quit with the approval of China’s State Council. Li’s agency is responsible for ensuring that China’s food supply chain is safe…生成问句:Who resigned because of the contaminated baby formula scandal?参考问句:Who has Resigned over the baby formula contamination scandal? |
英语正文:In September 1985 a devastating earthquake measuring 8.1 on the Richter Scale smashed into Mexico City killing 10,000 people and leaving parts of the city in ruins. Since then, the populous Latin American nation of 122 million has invested in one of the most advanced seismic warning systems anywhere in the world…生成问句:What is the device designed to provide a low-cost earthquake early warning system?参考问句:What equipment is specifically designed to bring a low-cost earthquake warning system to the masses in Mexico? |
英语正文:Fitting an airport into an area that measures just 2.3 square miles was never going to be easy task. Thankfully, Gibraltar had a novel way of solving the issue. The airport which serves the British overseas territory has made full use of the minimal space and lack of flat land available by building its only runway through the heart of the peninsula’s busiest road…生成问句:How many square miles of the peninsula is Gibraltar Airport built on?参考问句:How many square miles does Gibraltar Airport cover? |
除此之外,本文统计了不同疑问词引导的首个问句出现的频次,如
疑问词 | 频次 |
What | 682 |
Who | 614 |
When | 375 |
Where | 433 |
How many | 261 |
How much | 135 |
本文将Cloze Translation
模型与方法 | BLRU-4 | ROUGH-L | Bert Score | Q-BLEU-4 |
Cloze Translation | 12.11 | 33.25 | 43.18 | 57.88 |
Sentence Retrieval | 13.52 | 34.50 | 42.45 | 59.27 |
Ref QA | 11.69 | 32.97 | 50.21 | 57.52 |
PIE-QG | 14.37 | 34.81 | 53.26 | 60.94 |
ChatGPT | 15.82 | 38.13 | 66.27 | 64.98 |
Sum QG | 16.07 | 37.94 | 67.15 | 65.79 |
为了验证摘要提取过程和转译过程在本文方法中的作用,我们设计了消融实验,在其他实验条件不变的前提下,无摘要方法是从正文中随机抽取一个句子进行后续的提问生成步骤,无转译方法指的是不再对核心摘要句进行转译工作,直接用于问句生成。实验结果如
方法 | BLRU-4 | ROUGH-L | Bert Score | Q-BLEU-4 |
Sum QG | 16.07 | 37.94 | 67.15 | 65.79 |
无摘要 | 12.37 | 34.57 | 42.68 | 58.32 |
无转译 | 15.98 | 38.11 | 66.84 | 64.31 |
自动化提问生成作为问答系统的重要模块,在英语教学场景下也得到广泛的应用。现有的提问生成方法较为机械,资源依赖性强,难以应用到中小学基础教育中。为此,本文设计了采用摘要和句法技术实现首个提问生成的方法。通过结合摘要和转译技术,保证问句在概括正文核心内容的同时,避免其与正文之间存在过多的词汇重复。除此之外,本文借助句法分析技术实现首个问句生成,无需大量人工标注的领域问答数据集进行训练,便可自动生成教育领域中的问句,可以有效节约资源。实验结果显示,文本提出的方法相较其他基准方法,在句法、语义、可回答性方面均有较大优势,能够有效适配于英语阅读测试场景。
尽管本文方法在英语阅读测试的首次提问上取得了较好的效果,但仍存在一定的局限性。本文采用抽取式摘要生成方法,这可能会导致部分关键信息的遗漏。为了弥补这种文字缺陷,未来的工作将进一步探索文本到图的转化技术,借助图结构信息生成正文摘要,以便得到更高质量的英语测试提问。
国家自然科学基金资助项目(62072337)。
*通讯作者。