csa Computer Science and Application 2161-8801 2161-881X beplay体育官网网页版等您来挑战! 10.12677/csa.2024.148178 csa-94468 Articles 信息通讯 面向英语阅读测试的采用摘要和句法技术的首个提问生成方法
First Question Generation Method via Summarization and Syntax for English Reading Tests
1 2 曾国荪 1 2 同济大学计算机科学与技术系,上海 国家高性能计算机工程技术中心同济分中心,上海 06 08 2024 14 08 207 220 11 7 :2024 12 7 :2024 12 8 :2024 Copyright © 2024 beplay安卓登录 All rights reserved. 2024 This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ 在中小学英语教学中,阅读理解测试的首个提问是至关重要的,以其作为考察切入点能够引导后续问题的提出,以便检验学生理解能力和逻辑思维能力。现有的提问生成方法产生的问句内容发散,难以达到教学考察目的,并且严重依赖基础知识库和计算资源。为此,提出采用摘要和句法技术,以低算力高效率的方式实现首个提问生成。该方法从英语阅读正文中,选择核心摘要句以便聚焦正文主旨,并通过转译规则改写摘要语句的表述方式。对于转译后的核心摘要句,分析其主谓宾成分信息,确定关注对象,匹配相应的疑问词,进而根据语法规则生成首个提问。实验表明,提出的方法的语义相似度Bert Score和精确率BLRU-4分别达到了67.15和16.07,在句法、语义和可回答性方面均优于基线方法,能够有效生成适配于英语教学场景的首次提问。
In basic English teaching, the first question in reading tests is crucial, which acts as an examination entry point leading to subsequent questions and testing students’ comprehension and logical thinking skills. Existing methods generate questions that are divergent in content, hardly meaningful for pedagogical investigation, and heavily dependent on knowledge base and computational resources. Therefore, this paper proposed a method using summarization and syntax to achieve first question generation in a low-computing and high-efficient manner. The method selected key summary sentence from the English reading text to focus on the main idea of the text, and changed its presentation by applying translation rules. For the paraphrased key summary sentence, its subject-predicate-object components was analyzed to determine the subject of concern, matched the corresponding question words, and then generated the first question according to the grammatical rules. Experimental results show that the semantic similarity Bert Score and accuracy BLRU-4 of proposed method reach 67.15 and 16.07, respectively, which outperforms the baseline method in terms of syntax, semantics, and answerability. Experiments also demonstrate that the proposed method can effectively generate first questions adapted to English teaching scenarios.
问答系统,英语阅读测试,文本摘要,句法分析,提问生成
Question Answering System
English Reading Tests Text Summarization Syntactic Analysis Question Generation
1. 引言

据教育部统计,我国基础教育中各学段的学生人数均呈现出增长趋势,对教育资源和教育质量提出了更高的要求。其中,英语学习能力的培养一直深受老师和家长们的关注,是中小学基础教育中的重要教学目标。英语作为一门全球通用性语言,具有广泛的交流价值,通过学习英语,学生可以锻炼自己的语言表达能力和跨文化交际能力,提升自身的综合素质。在英语课堂教学场景下,阅读理解测试是培养和考察学生理解能力以及逻辑思维能力的重要方式之一。该题型通常给定一篇英语短文,学生们通过阅读正文内容回答给定的问题。而给定短文所对应的问题中,第一个问题是最核心的,教师们会根据首个问题的方向以及学生对它的作答情况延伸性地提出后续问题,因此首个问题的提出是至关重要的。

在传统的教育模式中,英语阅读测试问题通常是由教师们手动提出。这种方式不仅要求教师具有丰富的教学经验,能够精准地把握出题的角度和方向,而且会耗费大量的时间和精力,同时人工提出的问题数量也非常有限。互联网时代,各种公众号推文、新闻报道不断更新教育资讯,学习通、慕课等线上教学平台也实时产生的大量在线学习资料。这些变化都给传统课堂授课的教育模式带来了极大的挑战。面对实时更新的教育资源,教师们需要花费更多的时间和精力跟进和了解最新动态,并从中筛选和整合出重要的信息融合到自己的教学实践中,才能确保教育资源的时效性和有效性。近年来,人工智能技术飞速发展,并逐渐渗透到各个领域,教育领域也不例外。越来越多的研究者利用自然语言处理和机器学习等技术,快速高效地搜索和分析大量的教育资源,提供多样化的教育服务,逐渐解放教师的脑力劳动,给学生们提供更加智能化的自主学习方式。为了解决传统教学模式中人工提问费时费力且难以实时更新的问题,开展英语阅读测试的自动化提问生成研究变得尤为重要。

当前提问生成方法主要可以分为基于规则和基于机器学习的两大类。基于规则的提问生成方法将陈述句按照一定的语法规则转化为相应的疑问句。Lewis等人 [1] [2] 从给定原文中的事实陈述句选定考察的实体,即问句对应的答案,再将其匹配对应疑问词,根据语法规则适当调整语序便可实现从陈述句到问句的转换。该方法直接从原文生成问句,导致问句中包含过多的词汇线索,学生只需在文章中找到相应句子即可完成作答,因此生成问句的质量较差,不能够有效检验学生们的阅读理解能力。Fabbri等人 [3] 仍然采用将陈述句转化成疑问句的方法,但不直接在原文句子上进行转换,而是首先假定有一个丰富的语料库,从语料库中查找与原文句子相似的陈述句,再将其转化为疑问句。Li等人 [4] 则是利用文章之间的引用关系,在原文被引用的文章中寻找标明了引用原文的陈述句,将其代替原文句子转化为疑问句。前两项工作 [3] [4] 均通过寻找与原文相关的句子来替换掉原文中的句子,使得生成的问句更加灵活,但由于语料库中包含大量来自各个领域的语句,具有引用关系的不同文章之间也存在主题不一致,内容相差很大的现象,因此可能会导致生成的问题发散甚至跨领域。Nagumothu等人 [5] 采用重写的方法,将原文句子中的词汇进行同义词转换,并去除一些无关的定语,进而得到与原文语义相同,表述方式不同的陈述句,由此生成问句。虽然该方法较上述方法有所改善,但它们都存在一个共性问题,即这些方法可以作用在原文中的每一个句子上,但在对学生进行阅读测试时,原文中并不是所有句子都具有考核价值,若随机选择句子进行提问,生成的问句则无法聚焦原文的关键内容,进而无法针对性地考察学生对文章的掌握程度。

随着深度学习和自然语言处理技术的发展,问答系统领域出现了很多基于机器学习的相关研究。Zhou等人 [6] 提出了使用Seq2Seq模型的问题生成方法,其使用编码器读取输入文本和答案位置,以产生一个答案感知的输入表示,该输入表示被送到解码器,以生成一个以答案为中心的问题。随后,越来越多的研究学者倾向于以Seq2Seq架构为基础,同时结合现有深度学习方法优化模型结构来提升模型性能,例如强化学习 [7] - [9] ,多任务学习 [10] [11] 和对偶学习 [12] [13] 等。预训练语言模型提出后,部分研究学者通过微调预训练模型实现问题生成 [14] - [16] 。Bulathwela等人 [14] 率先探索了大语言模型在教育领域上的提问生成研究,该文献将T5大模型作为训练的基础模型,利用大规模的开放领域问答数据集对其进行预训练,最后在教育领域问答数据集上微调模型。Lee等人 [15] [16] 在ChatGPT的基础上结合提示工程实现问句的自动生成。虽然这类方法能够有效生成高质量的问句,但它们均需要大规模的训练数据和极大的算力,对资源和成本的要求度很高。然而,在基础教学教学场景中拥有的计算资源较少,难以满足这种需求。除此之外,模型的性能与数据集的领域和语言都极度相关,可扩展性较差。

综上,研究人员已经将人工智能技术应用到自动化问句生成中来,但目前仍存在一些问题。第一,基于规则的方法相对机械,且提问不具有针对性,导致生成的问句质量不高。第二,基于机器学习的方法需要大规模标签数据,且具有领域和语言的限制性,在教育场景中的适应度较低。为了实现简单快速的自动化提问生成,本文提出采用摘要和句法技术进行首个问句生成的方法,协助教师考察学生们的阅读理解能力,带给学生更智能化的学习体验。

2. 首个提问生成的概念和动机 2.1. 英语阅读测试正文的相关概念

英语阅读测试旨在培养学生对英语文章的理解能力、阅读技巧和逻辑思维能力。这类题型通常要求学生阅读一篇给定的英语文章,然后回答与文章相关的一系列问题。英语文章中包含的信息种类多样,常见的格式有文本、图片、表格,甚至视频音频等。文本是最为常见的一种形式,因此本文选取纯文本格式的英语正文作为阅读测试的研究对象,相关定义如下:

定义1:词向量。单词w是构成正文文本的基本单位,它拥有具体的含意,即语义。在自然语言处理中,词的语义通常用词袋模型(Bag of Word)、向量空间模型(VSM)、语义树、语义图、语义向量和语义哈希等进行描述。本文采用文献 [17] 中的方法计算词向量。具体地,词wi的词向量可以表示为 w i = ( l i 1 , l i 2 , , l i ζ ) ,其中 l i ζ , ζ 为向量的维度。

定义2:语句向量。为了统一英语正文中句子的向量维度,降低语句向量的稀疏度,本文从英语教育领域中选取m个关键词作为语句特征,其中每个关键词由ζ维的语义向量表示。对于正文中的任意一个语句d,若包含特定关键词wi,i∈[1, m],则他的语句向量中对应维度的特征即为该关键词的语义向量 a i = ( l i 1 , l i 2 , , l i ζ ) ,反之则赋为全零的ζ维向量。把m个ζ维向量 a 1 , a 2 , , a m 连接起来构造的向量称为语句向量,记为 d = ( a 1 , a 2 , , a m )

定义3:正文语义矩阵。对于一个英语正文文本D,假设其包含 d 1 , d 2 , , d t 条语句,每条语句对应的语句向量为 d i = ( a i 1 , a i 2 , , a i m ) i = 1 , 2 , , t ,则D的语义矩阵定义为:

ψ D = ( d 1 d 2 d t ) = ( a 11 a 12 a 1 m a 21 a 22 a 2 m a t 1 a t 2 a t m )

语义矩阵 ψ D 是一个t行、p列的二维实数矩阵,其中 p = m × ζ 。例如,取m = 100,ζ = 200,n = 20,对于 图1(a) 中的正文D,其语义矩阵可以表示为:

stages Earth scientific 100 1 2 20 ψ D = ( 0.124 0.098 0.145 0.074 0.000 0.000 0.000 0.000 0.145 0.074 0.000 0.000 0.124 0.098 0.000 0.000 0.061 0.347 )

定义4:摘要语义矩阵。摘要是对英语阅读材料正文的概括和总结。本文定义摘要是从正文中抽取出的k个陈述句,记为 S = ( s 1 , s 2 , L , s k ) ,其中,陈述句si的语句向量为 s i = ( a i 1 , a i 2 , , a i m ) i = 1 , 2 , , k 。与定义3类似,摘要S的语义矩阵可以定义为一个k行,m × ζ列的矩阵 ψ S

ψ S = ( s 1 s 2 s k ) = ( a 11 a 12 a 1 m a 21 a 22 a 2 m a k 1 a k 2 a k m )

摘要包含了英语正文中的主要观点、关键信息和重要结论。相较于正文,摘要虽然在篇幅上大幅缩短,但语义上高度凝练了原文的关键信息,使读者能够快速了解文章的中心思想。

定义5:命名实体。命名实体是文本中具有特定意义或者指代性强的实体。这些实体通常是专有名词,如人名、地名、组织机构名、日期和时间等具有明确语义类别的词或短语。命名实体与其类别一一对应,记作(E, E_label)。例如,命名实体“北京”,其对应的实体类别为地名“LOC”。由于这种定义的规范,命名实体带有明确的语义特征,具有极强的考察意义,经常作为自然语言处理任务中的研究对象。本文定义了18种命名实体的类别,包括PERSON (人名)、ORG (组织机构)、PRODUCT (物品)、LOC (地名)、DATE (日期)、PERCENT (百分比)、QUANTITY (数值)等,详见参考文献 [18]

定义6:疑问词。对于一个问句,疑问词是必不可少的成分。疑问词决定了问句考察的知识类别,例如疑问词“when”考察时间信息,“where”考察地点信息。由于本文选择合适的命名实体作为考察对象,因此疑问词是与命名实体类型相对应的。本文给定了六种疑问词,分别为“where”、“when”、“who”、“what”、“how many”和“how much”,统一记为wh*

2.2. 本文研究动机

第一个提问作为考察的着手点,往往高度凝练英文正文主旨,指明阅读测试的考察方向,后续提问将围绕其内容延续性展开。为此,本文采用摘要技术聚焦英语正文中的关键内容,并在此基础上借助句法分析技术针对性地提出首个问句,总体框架如 图1 所示。具体地,我们提出一个两阶段提问生成方法。对于给定的一篇英语正文D,第一阶段采用摘要技术和语义分析从正文中选择出一个核心摘要句skey,并借助转译技术对其进行改写。第二阶段利用句法技术对转译后的核心摘要句进行成分分析,确定所要考察的命名实体E,匹配问题的确定疑问词wh*,进而生成首个提问。

Figure 1. Overall framework--图1. 总体框架--
3. 英语正文摘要技术 3.1. 若干候选摘要语句的抽取

由于给定的英语正文中所含的信息量多而杂,很难直接抓住文章的重点来考察学生,本文借助摘要技术聚焦正文的主旨内容。虽然目前已有很多基于深度神经网络生成摘要的方法,但这些方法往往需要较多的资源和较高的算力,而本文面向教育场景下的英语阅读测试,出于简单快速高效的考虑,本文采用Text Rank [19] 方法从正文中抽取k个句子作为候选摘要语句。该方法将正文中的每个句子看作一个节点,并通过计算句子间的相似度构造带权值的无向边,进而将正文转化为一个无向有权图。借鉴Page Rank算法 [20] 的原理,Text Rank使用边上的权值迭代更新节点值。节点值越高,其对应语句与正文中其他语句之间的关联性就越大。最终选择得分最高的k个节点,将它们对应的原文陈述句组合起来作为候选摘要 S = ( s 1 , s 2 , , s k ) 。例如,对于 图1 中的正文D,我们取k = 3,即从原文中抽取出3个句子作为候选摘要,分别为:“Pythagoras proposed the concept that the Earth is a sphere.”“Aristotle provided the first scientific evidence for the Earth’s spherical shape by observing that the shadow cast on the moon during a lunar eclipse is round.”“Magellan’s fleet completed the circumnavigation, providing us with experiential evidence that the Earth is a sphere.”

3.2. 单个核心摘要语句的确定

摘要概括了正文的关键内容,其中每个陈述句都表达了完整的语义信息。当要求生成首个问句时,我们只是针对其中的一个句子信息进行提问,因此需要从摘要中选择出最重要的一个陈述句作为核心摘要句。为此,本文考虑每个摘要语句与正文的内容相关性,我们希望核心摘要句尽可能多地覆盖正文中的重要语义,从k个候选摘要语句S中选择与正文语义相似度最高的一个陈述句作为核心摘要句skey

在本文中,摘要陈述句si由语义向量表示,正文由多个语句组成的语义矩阵 ψ D 表示。为了比较摘要陈述句覆盖的正文语义信息量,我们计算摘要语句与正文中每个句子之间的相似度,再通过求和的方式得到该摘要句与正文文本的内容相关性。本文采用交叉熵作为评价候选摘要句与正文语句间语义相似度的指标,它衡量的是两个向量之间的分布差异性。因此,我们对交叉熵进行取负操作表示二者的相似性,公式如下:

REL i = C E i = j = 1 m × ζ s i log ( d j ) (1)

其中,t是英语正文中所含的句子总数,m × ζ是语句向量的维度。相关性得分越高,说明该候选摘要句中涵盖的正文信息越多。因此,本文选择相关性最高的候选摘要句作为核心摘要句skey,进一步用于下文中的问句生成。对于3.1节中的例子来说,我们套用上述公式,分别计算3个摘要语句与正文之间语义相似性,最终确定相似性最大的摘要句为:“Magellan’s fleet completed the circumnavigation, providing us with experiential evidence that the Earth is a sphere.”将其作为核心摘要句进一步用于后文中的问句生成。

3.3. 核心摘要语句的转译

本文考虑到选定的核心摘要语句是从正文中直接抽取的句子,若直接面向其进行问句生成,会导致问句中的原文线索过多。学生可以直接在正文中找到原句完成作答,无法有效考察学生的理解能力。因此,本文对选定的核心摘要句子进行转译,即在不改变句子语义的前提下,对其中的词汇和句式进行改动,使得转译后的句子能够更加灵活地考察学生们的掌握程度。如下是本文提出的实现摘要陈述句改写的规则:

a) 同义词替换。同义词替换是最基本的改写方法。这种方法依赖于一个同义词和反义词的词典,如Word Net。通过查找词汇的同义词集来替换原句中的词汇,或者将句子中的词汇替换为其反义词和否定的组合来实现句子的变体。例如,原句“He completed the task quickly.”经过同义词和短语替换可以改写成:“He finished the task in no time.”

b) 语态转换。主动语态和被动语态之间的转换同样是一种有效的改写方法,它可以在改变句子的顺序结构的同时保持语义不变。例如,原句“The chef cooked a delicious meal.”可以改写为被动句:“A delicious meal was cooked by the chef.”

c) 复合句简化。复合句可以通过调整句式结构改写为简单句,在保持原句的语义不变的前提下,使得改写后的句子更加易于理解。对于定语从句或状语从句,可以将其转化为相应的短语修饰主句,进而实现句子结构的简化。具体来说,原句“The book, which is very interesting, is on the table.”经过句子结构调整,可以改写为:“The very interesting book is on the table.”

d) 简单句复杂化。与规则c类似,简单句同样可以通过改变句子的句式结构来增加多样性和丰富性。对于句子结构中的主语或宾语成分,可以将其改写为相应的名词性从句。此外,原句中的修饰性短语可以转化为定语从句或状语从句的形式,增加句子的复杂性。例如,简单句“He decided to buy a digital camera online.”可以改写为宾语从句“He decided that he would buy a digital camera online.”

e) 句子顺序调整。句子的重排序可以在不改变句子语义的前提下,通过改变语序来突出不同的语义重点。对于简单句,可以采用状语前置、宾语前置的方法,或者调整形容词或副词在句中的位置;对于含有多个从句的复合句,可以调整主句和从句以及从句之间的次序。例如,原句“When I arrived, the meeting had already started.”改变主从句的顺序,可以改写为“The meeting had already started when I arrived.”

同理,我们可以制定更多相关的规则,此处不再赘述。多样化的规则可以将核心摘要句改写为多个版本。在本文中,我们针对核心摘要句skey生成5个转译版本 s k e y i i [ 1 , 5 ] ,并从中选择出一个变动最大的转译版本用于后文的提问生成。

K L ( s k e y s k e y i ) = j = 1 m × ζ s k e y log ( s k e y i ) + i = 1 m × ζ s k e y log ( s k e y ) (2)

保留KL值最高的转译版本用于问题生成,以使提问在句法上与正文原句有所不同,并记作 s k e y i 。对于3.2节中麦哲伦的例子,最终保留的转译版本为“Magellan proved that the earth is a globe, who led the circumnavigation.”

4. 首个问句生成方法

在中小学的英语基础教育中,阅读测试题目是对学生英语阅读理解能力的有效考察工具,其中第一个问题往往可以最直观地反映学生对正文核心思想的掌握情况。针对转译后的核心摘要句,本文基于句法技术分析其中单词词性,并抽取出主谓宾成分信息,选定目标问句所要考察的对象实体,为其匹配相应疑问词,进而生成首个问句。

4.1. 摘要语句的主谓宾化

对于转译后的摘要语句 s k e y i = { a 1 , a 2 , , a m } ,本文分析其中的成分信息 [21] ,抽取出所有的主谓宾三元组t = 。首先对 s k e y i 进行分词处理,将语句分解为单词或符号,每个单词或符号作为一个独立的单位。分词结果进一步用来词性标注和句法分析,标明每个单词是名词、动词、形容词等。同时生成摘要句的句法依存树,解析其中的语法结构。例如,依存标签IP表示简单从句,VP表示动词短语,nsubj标记主谓关系,dobj标记谓宾关系等。根据单词词性及依存关系识别句子的主谓宾成分,规则如下:

a) 谓语识别规则。谓语通常是句子的核心动词或动词短语,同时识别与核心动词搭配的助动词、情态动词等。在句法依存树中,谓语是连接主语和宾语的核心词。

b) 主语识别规则。根据句法依存树查找与谓词直接相连且在其之前的名词短语(NP)作为主语,在依存关系树中,动词的nsubj依存关系通常指向主语。

c) 宾语识别规则。与主语类似,利用依存关系识别谓语动词的承受者。依存树中的dobj依存关系通常指向直接宾语。

Figure 2. Dependency diagram for summary sentences--图2. 摘要句的依存关系图--

由于摘要句中可能存在宾语从句、定语从句等,同样需要对复合句进行解析,将关系词指代的成分进行替换,并按照上述识别规则分析从句中的主谓宾信息。例如,对于3.3节中转译后的摘要语句,如 图2 ,对其进行分词处理、词性标注和依存关系分析。该摘要句包含主句“Magellan proved that the earth is a globe”,宾语从句“that the earth is a globe”和定语从句“who led the circumnavigation”。将定语从句的引导词“who”用指代名词“Magellan”进行替换,之后通过上述识别规则可以得到三组主谓宾,分别为

针对摘要句生成相关问句时,需要明确其中所要考察的信息,凝结与其相关的内容,进而针对性地提出问题,有效检测学生对该信息点的掌握情况。对于一个英语陈述句,主语是最重要的成分。它是句子的中心话题或动作的执行者。此外,根据命名实体的定义约束(详见定义5),它通常是文本中具有特定含义或者指代性强的实体,这赋予了其极强的考察意义。因此,对于摘要句对应的主谓宾三元组集合T,本文从中选择一个能够被识别为命名实体的主语成分作为目标问句的考察对象E,进而提高目标问句的质量和可回答性。

本文对核心摘要句中所有三元组的主语成分进行命名实体识别分析。识别过程主要依赖于三种规则,分别为大写字母规则、词典查找规则和上下文模式匹配规则。大写字母规则识别以大写字母开头的连续单词,这些单词通常是专有名词、人名等。词典查找规则需要依赖于一个命名实体词典,如Dbpedia,它包含了丰富的命名实体信息,涵盖人物、地点、组织、事件等多种实体类别,利用该词典可直接查找命名实体,并匹配其类别。上下文模式匹配规则利用上下文和特定模式的正则表达式来匹配实体。例如,日期通常包含月份名称和数字。如果一个单词是月份名称(如January),并且后续有数字,则该组合可能是日期。

综合以上三种规则,我们识别出主语成分中所有的命名实体。例如,4.1.1节中得到的主谓宾集合,对主语成分进行命名实体识别,同时得到其实体类别,结果为(Magellan, PERSON)和(Earth, LOC)。PERSON指的是该实体为人名,LOC指的是地名标签。

在英语文章中,一个命名实体出现的次数越多,则说明与其相关的描述篇幅就越长,其重要程度越高。因此,我们认为命名实体出现的频率代表其与正文主旨的相关度,它可以侧面反映了该实体在文中的重要性。在本文中,对于主语成分中识别到的所有命名实体,从中选择在正文中出现词频最高的作为考察实体E,并记录其对应的实体标签E_label。在上述例子中,若“Magellan”在正文中的词频高于“earth”,则保留(Magellan, PERSON)作为考察对象。反之,则保留(Earth, LOC)。

得到摘要句中的主谓宾三元组集合T,以及考察实体E后,便可以利用二者信息对三元组集合进行过滤筛选和合并重组,保留主语成分为考察实体的三元组。对于上述例子,假设确定的考察实体及标签为(Magellan, PERSON),则保留三元组

经过上述过滤操作后,仍可能存在多组主谓宾。但此时这些三元组中的主语成分都是选定的考察实体。为了方便后续问句的生成,我们将它们进行合并,记为 t = s u b , p r e 1 , o b j 1 , p r e 2 , o b j 2 , 。其中,sub = E。例如,保留后的两个三元组可以合并为, >。

4.2. 首个提问生成

由4.1节可知,目标问句针对考察实体展开提问。因此,疑问词可由考察实体的标签类别匹配获得。根据经验常识,在对每种类别的命名实体进行提问时,都有其相对应的疑问词。例如,对人名类的实体提问时会用疑问词“who”作为开头来引导问句,对地点类的实体提问时会用“where”,对时间类的实体提问时会用“when”等。为此,本文设计了函数Wh_Match,根据考察实体标签映射疑问词。即 w h * = W h _ M a t c h ( E _ l a b e l ) 。例如“Magellan”为“PERSON”人名类实体,故而匹配疑问词“who”。具体的匹配对应情况如 表1 所示。

<xref></xref>Table 1. Matching of question wordsTable 1. Matching of question words 表1. 疑问词匹配表
疑问词(wh*)

考察实体标签(E_label)

Who

PERSON/NORP/ORG

Where

FAC/GPE/LOC

What

PRODUCT/EVENT/WORK_OF_ART/LAW/LANGUAGE

When

DATE/TIME

How many

PERCENT/QUANTITY/ORDINAL/CARDINAL

How much

MONEY

具备经过滤重组后的摘要三元组t和疑问词wh*后,便可以套用语法规则简单快递地生成首个问句Q。在本文中,将陈述句转化为疑问句时,针对主语成分提问,则将主语位置替换为与其匹配的疑问词,之后拼接陈述句中的谓语和宾语成分即可。多个谓语宾语成分时,只需同样的方式在其后叠加。具体地,对于摘要三元组 t = E , p r e 1 , o b j 1 , p r e 2 , o b j 2 , 和考察实体(E, E_label),为其匹配的疑问词为 w h * = W h _ M a t c h ( E _ l a b e l ) ,根据语法规则,即可生成问句Q“wh*+ pre1+obj1, pre2+ obj2?”。例如,对于上述麦哲伦的例子,匹配到疑问词“who”,即可生成问句“who proved that the earth is a globe, led the circumnavigation?”。首个问句生成算法的伪代码如下:

算法1:问句生成算法(Sum QG)

输入:一篇阅读理解文章D。

输出:文章相关的首个问句Q。

Sum QG (D)

1: {ΨD← generate_semantic_matrix (D);

2: S←Top_k (Text Rank (D));

3: ΨS← generate_semantic_matrix (S);

4: forall si∈ΨS:

5: {RELi←relation (si, ΨD); //根据公式(1)计算相关性

6: }

7: skey←MAX (RELi), i∈[1, k];

8: s k e y i ←Paraphrase (skey), i∈[1, 5]; //得到5个转译版本

9: forall i∈[1, 5]

10: {KLi←divergence (si, s k e y i ); //根据公式(2)计算散度

11: }

12: s k e y i ←MAX (KLi), i∈[1,5];

13: T←Triples ( s k e y i ); //抽取主谓宾三元组

14: (E, E_label) ←MAX(NER (T_SUB)); //选择考察实体

15: Tk←K_filter (T, E); //三元组过滤

16: t←Merge (Tk); //三元组合并

17: wh*←Wh_Match (E_label); //匹配疑问词

18: Q←“wh*”; //目标问句初始化

19: for < p, o> in t

20: {Q←wh* + p + o?; //问句生成

21: }

22: Return Q;

23: }

5. 实验 5.1. 评价数据集的生成

英语基础教育中的阅读测试题通常选用美国报刊的新闻文章作为阅读理解的背景信息。本文选取CNN/DM [22] 数据集中的文章作为英语阅读测试正文。该数据集是由美国有限新闻网(CNN)和每日邮报网(Daily Mail)提供,适用于基础教育中提升学生的阅读理解能力。为了适应本文的研究内容,即面向报刊文章概括性地提出首个问句,我们从数据集中选择了2.5 k篇新闻,并邀请20位英语老师为每篇文章撰写了第一个提问。该提问符合实际教学场景,对原文内容具有概括性,可以用于评价本文方法生成的问句。该数据集的具体信息如 表2 所示。

<xref></xref>Table 2. Information of the datasetTable 2. Information of the dataset 表2. 数据集信息
对象

统计指标

英语正文

正文平均单词数

766.4

正文平均句子数

29.7

句子平均单词数

17.8

首个问句

平均单词数

13.9

表2 可以看出,英语老师编写的首个问句比正文中每个句子的平均单词数少一方面,英语教师编写的提问是针对摘要信息,在高度概括原文的基础上提出的首个问句。另一方面,问句自然地对正文中的原始内容进行了部分信息的掩盖,进而针对掩盖内容提问。

5.2. 评价指标

对于本文方法生成的首个提问,我们从三个角度来对其质量进行评估,分别为:生成问句与标签问句的句法相似性、生成问句与标签问句的语义相关性、生成问句的可回答性和结构完整性。

生成问句和标签问句的句法相似性采用BLEU-4 [23] 和ROUGE-L [24] 衡量。BLEU-4通过统计生成问句中的词汇在参考问句中出现的比率来评价生成问句的质量。ROUGE-L通过计算生成问句和参考问句之间的最长公共子序列衡量提问生成的质量。生成问句与标签问句的语义相关性采用Bert Score [25] 评价。该指标使用BERT模型对生成问句和参考问句进行上下文嵌入编码,并通过计算二者之间的余弦相似度评价生成问句。生成问句的可回答性和结构完整性由Q-BLEU-4 [26] 来衡量,该指标在BLEU-4的基础上进行了改造,加入了对疑问词、命名实体、关系词等多方面的考虑。

5.3. 实验结果与分析

表3 所示,本文挑选了三条数据作为样例展示问句生成的效果,通过观察可以发现,本文方法生成的问句与参考问句具有较强的一致性,仅在一些词汇和短语上有所区别,能够很好地适用于英语阅读测试,具有较强的阅读理解考察性。

<xref></xref>Table 3. Examples of experimental resultsTable 3. Examples of experimental results 表3. 实验结果示例
英语正文:The head of China’s quality watchdog is reported to have resigned over the tainted baby milk scandal that has killed four children and sickened nearly 53,000 others. The official Xinhua News Agency said Li Changjiang had quit with the approval of China’s State Council. Li’s agency is responsible for ensuring that China’s food supply chain is safe…

生成问句:Who resigned because of the contaminated baby formula scandal?

参考问句:Who has Resigned over the baby formula contamination scandal?

英语正文:In September 1985 a devastating earthquake measuring 8.1 on the Richter Scale smashed into Mexico City killing 10,000 people and leaving parts of the city in ruins. Since then, the populous Latin American nation of 122 million has invested in one of the most advanced seismic warning systems anywhere in the world…

生成问句:What is the device designed to provide a low-cost earthquake early warning system?

参考问句:What equipment is specifically designed to bring a low-cost earthquake warning system to the masses in Mexico?

英语正文:Fitting an airport into an area that measures just 2.3 square miles was never going to be easy task. Thankfully, Gibraltar had a novel way of solving the issue. The airport which serves the British overseas territory has made full use of the minimal space and lack of flat land available by building its only runway through the heart of the peninsula’s busiest road…

生成问句:How many square miles of the peninsula is Gibraltar Airport built on?

参考问句:How many square miles does Gibraltar Airport cover?

除此之外,本文统计了不同疑问词引导的首个问句出现的频次,如 表4 所示。可以看出,what引导的问句数量最多,how引导的问句数量较少。这表明,在首个问句中,对于事件、物品等概念性信息考察的较多,对数量信息考察相对较少。这种现象符合中小学英语教学场景。首个问句作为概括性提问,聚焦于正文的主旨,而用于中小学基础教育中的英语文章通常是针对事件、物品、人物、地点展开描述。

<xref></xref>Table 4. Statistics of the number of question wordsTable 4. Statistics of the number of question words 表4. 疑问词频次统计
疑问词

频次

What

682

Who

614

When

375

Where

433

How many

261

How much

135

本文将Cloze Translation [1] 、Sentence Retrieval [2] 、Ref QA [3] 、PIE-QG [4] 作为基准模型,验证本文方法(Sum QG)的有效性。此外,本文还使用Chat GPT接口让其直接生成英语正文对应的摘要性提问。实验结果如 表5 所示,本文提出的Sum QG方法在BLRU-4、Bert Score、Q-BLEU-4等指标上都高于其他方法,综合表现最优。究其原因,Cloze Translation、Sentence Retrieval、Ref QA和PIE-QG方法并非针对摘要进行问题生成,因此在本文构建的数据集上表现明显低于Sum QG。而相比Chat GPT,本文提出的方法能够以低算力高效率的方式达到较优的效果,更加适合于中小学英语基础教育领域。

<xref></xref>Table 5. Comparison of the proposed method with the benchmark modelTable 5. Comparison of the proposed method with the benchmark model 表5. 本文方法与基准模型的对比实验
模型与方法

BLRU-4

ROUGH-L

Bert Score

Q-BLEU-4

Cloze Translation

12.11

33.25

43.18

57.88

Sentence Retrieval

13.52

34.50

42.45

59.27

Ref QA

11.69

32.97

50.21

57.52

PIE-QG

14.37

34.81

53.26

60.94

ChatGPT

15.82

38.13

66.27

64.98

Sum QG

16.07

37.94

67.15

65.79

为了验证摘要提取过程和转译过程在本文方法中的作用,我们设计了消融实验,在其他实验条件不变的前提下,无摘要方法是从正文中随机抽取一个句子进行后续的提问生成步骤,无转译方法指的是不再对核心摘要句进行转译工作,直接用于问句生成。实验结果如 表6 所示,由于首个提问聚焦于摘要信息,因此无摘要方法的性能明显低于完整的Sum QG方法。对于转译模块,其目标即为使得生成的问句在不改变语义的前提下最大程度地于原文的词汇不同,因此在词汇的句法相似度上,无转译方法的ROUGH-L值略高于完整方法是合理的。同时,二者的语义相似度Bert Score十分接近,由此可以看出转译模块的设置符合预期效果。

<xref></xref>Table 6. Comparison of ablation experimentsTable 6. Comparison of ablation experiments 表6. 消融实验对比
方法

BLRU-4

ROUGH-L

Bert Score

Q-BLEU-4

Sum QG

16.07

37.94

67.15

65.79

无摘要

12.37

34.57

42.68

58.32

无转译

15.98

38.11

66.84

64.31

6. 结束语

自动化提问生成作为问答系统的重要模块,在英语教学场景下也得到广泛的应用。现有的提问生成方法较为机械,资源依赖性强,难以应用到中小学基础教育中。为此,本文设计了采用摘要和句法技术实现首个提问生成的方法。通过结合摘要和转译技术,保证问句在概括正文核心内容的同时,避免其与正文之间存在过多的词汇重复。除此之外,本文借助句法分析技术实现首个问句生成,无需大量人工标注的领域问答数据集进行训练,便可自动生成教育领域中的问句,可以有效节约资源。实验结果显示,文本提出的方法相较其他基准方法,在句法、语义、可回答性方面均有较大优势,能够有效适配于英语阅读测试场景。

尽管本文方法在英语阅读测试的首次提问上取得了较好的效果,但仍存在一定的局限性。本文采用抽取式摘要生成方法,这可能会导致部分关键信息的遗漏。为了弥补这种文字缺陷,未来的工作将进一步探索文本到图的转化技术,借助图结构信息生成正文摘要,以便得到更高质量的英语测试提问。

基金项目

国家自然科学基金资助项目(62072337)。

NOTES

*通讯作者。

References Lewis, P., Denoyer, L., Riedel, S. (2019) Unsupervised Question Answering by Cloze Translation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, 28 July-2 August 2019, 4896-4910. >https://doi.org/10.18653/v1/P19-1484 李伟, 黄贤英, 冯雅茹. 基于课程学习的无监督常识问答模型[J]. 计算机应用研究, 2023, 40(6): 1674-1678, 1685. Fabbri, A. R., Ng, P., Wang, Z., et al. (2020) Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Seattle, 5-10 July 2020, 4508-4513. >https://doi.org/10.18653/v1/2020.acl-main.413 Li, Z., Wang, W., Dong, L., et al. (2020) Harvesting and Refining Question-Answer Pairs for Unsupervised QA. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Seattle, 5-10 July 2020, 6719-6728. >https://doi.org/10.18653/v1/2020.acl-main.600 Nagumothu, D., Ofoghi, B., Huang, G., et al. (2022) PIE-QG: Paraphrased Information Extraction for Unsupervised Question Generation from Small Corpora. Proceedings of the 26th Conference on Computational Natural Language Learning, Abu Dhabi, 7-8 December 2022, 350-359. >https://doi.org/10.18653/v1/2022.conll-1.24 Zhou, Q., Yang, N., Wei, F., et al. (2017) Neural Question Generation from Text: A Preliminary Study. Natural Language Processing and Chinese Computing: 6th CCF International Conference, Dalian, 8-12 November 2017, 662-671. >https://doi.org/10.1007/978-3-319-73618-1_56 Yao, K., Zhang, L., Luo, T., et al. (2018) Teaching Machines to Ask Questions. Proceedings of the 27th International Joint Conference on Artificial Intelligence, Stockholm, 13-19 July 2018, 4546-4552. >https://doi.org/10.24963/ijcai.2018/632 Chen, Y., Wu, L. and Zaki, M.J. (2019) Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model. arXiv: 1910.08832. >https://doi.org/10.48550/arXiv.1910.08832 Wang, L., Xu, Z., Lin, Z., et al. (2020) Answer-Driven Deep Question Generation Based on Reinforcement Learning. Proceedings of the 28th International Conference on Computational Linguistics, Barcelona, 8-13 December 2020, 5159-5170. >https://doi.org/10.18653/v1/2020.coling-main.452 Jia, X., Zhou, W., Sun, X., et al. (2020) How to Ask Good Questions? Try to Leverage Paraphrases. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Seattle, 5-10 July 2020, 6130-6140. >https://doi.org/10.18653/v1/2020.acl-main.545 Ma, X., Zhu, Q., Zhou, Y., et al. (2020) Improving Question Generation with Sentence-Level Semantic Matching and Answer Position Inferring. Proceedings of the AAAI Conference on Artificial Intelligence, New York, 7-14 February 2020, 8464-8471. >https://doi.org/10.1609/aaai.v34i05.6366 Wang, T., Yuan, X. and Trischler, A. (2017) A Joint Model for Question Answering and Question Generation. arXiv: 1706.01450. >https://doi.org/10.48550/arXiv.1706.01450 Sachan, M. and Xing, E. (2018) Self-Training for Jointly Learning to Ask and Answer Questions. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics, New Orleans, 2-4 June 2018, 629-640. >https://doi.org/10.18653/v1/N18-1058 Bulathwela, S., Muse, H. and Yilmaz, E. (2023) Scalable Educational Question Generation with Pre-Trained Language Models. Proceedings of the 24th International Conference on Artificial Intelligence in Education, Tokyo, 3-7 July 2023, 327-339. >https://doi.org/10.1007/978-3-031-36272-9_27 王培冰, 张宁, 张春. 基于Prompt的两阶段澄清问题生成方法[J]. 计算机应用研究, 2024, 41(2): 421-425. Lee, U., Jung, H., Jeon, Y., et al. (2023) Few-Shot Is Enough: Exploring ChatGPT Prompt Engineering Method for Automatic Question Generation in English Education. Education and Information Technologies, 5, 1-33. Mikolov, T., Chen, K., Corrado, G., et al. (2013) Efficient Estimation of Word Representations in Vector Space. arXiv: 1301.3781. >https://doi.org/10.48550/arXiv.1301.3781 Chinchor, N. and Robinson, P. (1997) MUC-7 Named Entity Task Definition. Proceedings of the 7th Conference on Message Understanding, Fairfax, 29 April 1997, 1-21. Mihalcea, R. and Tarau, P. (2004) TextRank: Bringing Order into Text. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, 25-26 July 2004, 404-411. Brin, S. and Page, L. (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems, 30, 107-117. >https://doi.org/10.1016/S0169-7552(98)00110-X Kolluru, K., Adlakha, V., Aggarwal, S., et al. (2020) OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Online, 16-20 November 2020: 3748-3761. >https://doi.org/10.18653/v1/2020.emnlp-main.306 Nallapati, R., Zhou, B., Gulcehre, C., et al. (2016) Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond. Proceedings of the 20th Conference on Computational Natural Language Learning, Berlin, 11-12 August 2016, 280-290. >https://doi.org/10.18653/v1/K16-1028 Papineni, K., Roukos, S., Ward, T., et al. (2002) Bleu: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Stroudsburg, 7-12 July 2002, 311-318. >https://doi.org/10.3115/1073083.1073135 Lin, C.Y. (2004) ROUGE: A Package for Automatic Evaluation of Summaries. Text Summarization Branches Out, Barcelona, July 2004, 74-81. Zhang, T., Kishore, V., Wu, F., et al. (2019) BERTScore: Evaluating Text Generation with BERT. arXiv: 1904.09675. >https://doi.org/10.48550/arXiv.1904.09675 Nema, P. and Khapra, M.M. (2018) Towards a Better Metric for Evaluating Question Generation Systems. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 31 October-4 November 2018, 3950-3959. >https://doi.org/10.18653/v1/D18-1429
Baidu
map