针对离线手写文本识别(HTR)在自然语言处理领域中的重要性以及其广泛应用于帮助视障用户、人机交互和自动录入等方面的实际需求,本研究提出了一个全新的模型。该模型在门控卷积网络的基础上引入了堆叠自注意力编码器–解码器,用于离线识别手写的汉字文本。由于书写风格的多样性、不同字符之间的视觉相似性、字符重叠以及原始文档中的噪音等挑战,设计准确且灵活的HTR系统具有相当大的难度,特别是当处理较为复杂、包含大量字符的文本时,算法的学习能力显得不足。为了解决这一问题,我们提出的模型包括特征提取层、编码器层和解码器层。其中,特征提取层从输入的手写图像中提取高纬度的不变特征图,而编码器和解码器层则相应地转录出文本。实验结果显示,该模型在HCTD数据集上的字符错误率(CER)为6.72,单词错误率(WER)为11.11;在HCWD数据集上的实验结果CER为6.22和WER为7.17。相对于其他研究者的模型,本文设计的模型在手写汉字识别率上提升了11%。 In light of the significance of offline handwritten text recognition (HTR) in the field of natural language processing and its wide-ranging applications in meeting the practical needs of assisting visually impaired users, enabling human-computer interaction, and facilitating automated data entry, this study proposes a novel model. The model integrates the stacked self-attention encoder-decoder on the basis of gated convolution networks for recognizing offline handwritten Chinese characters. Given the challenges posed by diverse writing styles, visual similarities among different characters, character overlap, and noise in original documents, designing an accurate and flexible HTR system is notably difficult, especially when dealing with complex text containing a large number of characters, where algorithms often demonstrate limited learning capabilities. To address this issue, our proposed model comprises feature extraction, encoder, and decoder layers. The feature extraction layer extracts high-dimensional invariant feature maps from the input handwritten images, while the encoder and decoder layers transcribe the text accordingly. Experimental results demonstrate that the model achieves a character error rate (CER) of 6.72 and a word error rate (WER) of 11.11 on the HCTD dataset; and on the HCWD dataset, the CER is 6.22 and the WER is 7.17. Compared to models developed by other researchers, our designed model shows an 11% improvement in handwritten Chinese character recognition accuracy.
针对离线手写文本识别(HTR)在自然语言处理领域中的重要性以及其广泛应用于帮助视障用户、人机交互和自动录入等方面的实际需求,本研究提出了一个全新的模型。该模型在门控卷积网络的基础上引入了堆叠自注意力编码器–解码器,用于离线识别手写的汉字文本。由于书写风格的多样性、不同字符之间的视觉相似性、字符重叠以及原始文档中的噪音等挑战,设计准确且灵活的HTR系统具有相当大的难度,特别是当处理较为复杂、包含大量字符的文本时,算法的学习能力显得不足。为了解决这一问题,我们提出的模型包括特征提取层、编码器层和解码器层。其中,特征提取层从输入的手写图像中提取高纬度的不变特征图,而编码器和解码器层则相应地转录出文本。实验结果显示,该模型在HCTD数据集上的字符错误率(CER)为6.72,单词错误率(WER)为11.11;在HCWD数据集上的实验结果CER为6.22和WER为7.17。相对于其他研究者的模型,本文设计的模型在手写汉字识别率上提升了11%。
汉字识别,自注意力编码器–解码器,门控卷积,离线手写文本识别
Xuliang Luo, Yiliang Wu*, Cuimei Liu, Fengchan Guo
Jiangmen Power Supply Bureau, Guangdong Power Grid Co., Ltd., Jiangmen Guangdong
Received: Apr. 16th, 2024; accepted: May 14th, 2024; published: May 22nd, 2024
In light of the significance of offline handwritten text recognition (HTR) in the field of natural language processing and its wide-ranging applications in meeting the practical needs of assisting visually impaired users, enabling human-computer interaction, and facilitating automated data entry, this study proposes a novel model. The model integrates the stacked self-attention encoder-decoder on the basis of gated convolution networks for recognizing offline handwritten Chinese characters. Given the challenges posed by diverse writing styles, visual similarities among different characters, character overlap, and noise in original documents, designing an accurate and flexible HTR system is notably difficult, especially when dealing with complex text containing a large number of characters, where algorithms often demonstrate limited learning capabilities. To address this issue, our proposed model comprises feature extraction, encoder, and decoder layers. The feature extraction layer extracts high-dimensional invariant feature maps from the input handwritten images, while the encoder and decoder layers transcribe the text accordingly. Experimental results demonstrate that the model achieves a character error rate (CER) of 6.72 and a word error rate (WER) of 11.11 on the HCTD dataset; and on the HCWD dataset, the CER is 6.22 and the WER is 7.17. Compared to models developed by other researchers, our designed model shows an 11% improvement in handwritten Chinese character recognition accuracy.
Keywords:Chinese Character Recognition, Self-Attention Encoder-Decoder, Gated Convolution, Offline Handwriting Text Recognition
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
手写文字识别(HTR)一直以来都是图像处理和自然语言处理领域中最具吸引力和挑战性的研究领域之一。它被广泛应用在各种应用程序中,用于将手写图像转换成可编辑文本的用户界面,提高HTR系统的识别性能可以改进文字处理领域的自动化流程。
根据参考文献 [
在过去几十年中,国内外学者提出了多种HTR系统,并取得了显著的成果。例如,已经采用了隐马尔可夫模型(HMM) [
在手写汉字识别技术中,与其他文字(如英文字母)相比,汉字的识别具有多个挑战。汉字的复杂笔画结构、字形变化与连写、字形相似性、多音字和多义字以及书写风格的多样性,增加了识别的复杂度。为了提高对汉字的准确识别能力,手写字体识别技术需要使用笔迹分析、字形特征提取和上下文语境分析等多种技术手段。
本研究提出了一种新型的门控卷积和堆叠自注意力编码器–解码器网络(GCSEN),旨在识别离线手写的汉字文本。在本模型中,我们采用门控卷积神经网络(Gated CNN)从手写图像中提取特征,并利用称为Transformer的堆叠自注意力编码器–解码器来转录文本。我们将这些模型整合在一起,因为门控卷积神经网络在从复杂数据集中提取特征方面表现出较高性能,并且堆叠自注意力编码器–解码器通过避免递归在语言建模方面表现优异 [
汉字作为中国传统的书写系统具有悠久的历史,可以追溯到数千年前的甲骨文和金文。汉字经历了演变和发展,形成了多种书法风格和字体变体,每个汉字都有独特的组成结构和书写风格,深受中国文化、历史和艺术的影响。对汉字的特征分析涉及笔画的组成、书写顺序、相互关系以及字形的变体。汉字的书写具有多样性和复杂性,而不同的书写风格如楷书、行书、草书等则展现了汉字的丰富多彩。图1为手写汉字的示例。
图1. 手写汉字示例
此外,汉字的形体结构复杂,通常由多个笔画组成,包括多种连笔和隶变的书写形式。部分汉字因结构复杂、形态相似或多音多义而识别难度有所增加。因此,手写识别汉字需要考虑字符结构、笔画路径、笔画顺序以及连笔特征等因素的综合分析。有效的汉字识别算法需要能够准确捕捉这些特征,并结合上下文语境,提高识别的准确率和鲁棒性。
构建手写文本识别(HTR)系统的主要技术研究包括分割(字符、单词或文本行级别)、特征提取和分类任务。采用分割技术对输入图像的字符、单词或文本行进行检测并分割。由于在手写汉字中会存在一些连字,因此在字符层级的分割难度有所增加。因此,我们进行了单词层级和文本行层级的分割。在增强图像质量方面,采用的预处理技术如中值滤波 [
此外,特征提取和分类子任务涉及多种机器学习技术,如HMM、支持向量机(SVM)和神经网络 [
与英语相比,为汉字文字系统设计健壮的离线手写文本识别(HTR)系统面临一些挑战,如字符数量和视觉上相似字符的问题。汉字系统包括3700多个常用汉字,并且其笔画结构相较于英语更为复杂。因此,字符数量的增加会对HTR系统产生影响,需要更多的内存和计算资源。此外,汉字中存在一些视觉上相似的字符,对计算机而言非常难以识别。
本文提出了使用门控卷积神经网络从手写文本行/单词图像中提取特征,并利用Transformer网络来转录相应的文本,从特征提取层提取的特征图。为了训练和测试所提出的模型,我们准备了一个专门的离线汉字手写文本行数据集和手写汉字单词数据集。
本研究引入了一种新的门控卷积神经网络架构,结合了堆叠的自注意力编码器–解码器模型,用于识别离线手写的汉字文本。此外,我们对当前各种文字系统的最新模型进行了广泛调研,包括Puigcerver提出的CNN-1D-LSTM [
本文提出的模型由三个主要组件组成:特征提取层、编码器层和解码器层,其架构如图2所示。编码器–解码器层加入了堆叠的多头自注意力机制,然后对接上基于位置编码的全连接网络,即Transformer。这一架构近年来在自然语言处理任务中备受关注,并不断取得新的成果。
图2. 本文改进的模型架构
在手写文本识别中,与自然语言处理中使用Transformer的关键区别在于,在将图像输入Transformer网络之前,需要将图像转换为序列表示。为了解决这一问题,我们引入了一个特征提取单元,位于编码器层之前,负责从输入图像中提取特征图的序列。这一预处理步骤确保了图像中的视觉信息能够被Transformer网络适当地结构化,以便进行后续处理。虽然我们提出的模型包括三个基本层,即特征提取、编码器和解码器层,但需要强调的是,该模型是以端到端的方式进行训练的。这些层中的每一层在识别过程中都发挥着独特的作用,下面我们将简要概述每一层。
如图2所示,特征提取层是我们模型的基础组件。值得注意的是,自然语言处理和手写文本识别的输入数据性质有着显著的区别。对于手写文本识别而言,输入为手写文本图像,需要经过预处理转换成空间特征图,然后才能传递到模型的后续层。
为了将输入的手写图像转换成空间特征图,我们使用了门控卷积神经网络架构,具体细节请参考文献 [
通过门控和卷积层,我们提取了不同维度的特征图,包括16、32、40、48、56和64。此外,我们还选择了不同的核大小:第三和第五层采用了2 x 2的卷积核,在其余的卷积层上使用了3 x 3的卷积核。这些特征图尺寸和核大小的选择是经过精心设计的,以捕捉和表示手写文本的不同空间特征,使得模型的后续层能够有效地处理这些信息。
在特征提取完成之后,提取的特征图传递到编码器层,由编码器层进行下一步的处理。编码器层由六个类似的堆叠层组成,每个堆叠层旨在将输入的特征图转换为更高级的表示,以捕捉与后续处理相关的信息。在每个编码器层内,存在两个主要单元:自注意力单元和前馈神经网络单元,它们共同逐步完善特征表示。
自注意力单元是编码器的关键组成部分,它接受先前编码器层生成的一组输入编码,并评估每个编码相对于其他编码的重要性。这一过程根据它们相互之间的相关性分配权重给输入编码,从而生成了一组输出编码,携带了对特征图中空间关系和上下文依赖的精细理解。随后,每个编码的输出被分别传递到前馈神经网络单元,该单元对特征编码应用非线性变换,增强了它们的表征能力,并进一步完善了其中包含的信息。
这些单元的输出随后被传递给下一个编码器单元,或者在最后一个编码器单元的情况下,传递到解码器层。信息在单元之间流动的这种结构,使得模型能够逐步构建手写文本的抽象和上下文化的表示,这对于准确的识别和理解至关重要。编码器分析空间和上下文信息的能力使之成为模型识别手写文本的基本组成部分。
解码器层作为模型的最后一个部分,其结构与编码器层类似,共由六个堆叠的模块组成。这些模块与编码器层的模块有共同的特征,但额外增加了一个子层,用于在编码器堆栈的输出上运行多头注意力。这一新增部分对解码器的功能至关重要,因为它使得解码器在生成最终输出序列时能考虑编码器输出中编码的上下文和关系。
除了本文提出的模型外,另外我们还评估了其他三个最近开发的模型的性能。第一个模型,如文献 [
第二个模型采用了不同的方法,利用卷积编码器处理输入图像,并使用双向LSTM解码器预测字符序列。由Bluche和Messina [
第三个模型,名为FLOR++ [
本节主要展示并分析本文提出的模型以及第3.3节中介绍的另外三个最新技术模型的实验成果。这种严格的评估对于衡量模型在手写文本识别任务中的有效性至关重要。并将详细讨论实验使用的数据集制作和具体的实验设置,以及从每个模型中得出的结果。这些结果不仅突出了模型的性能,还为了解其优势和潜在改进领域提供了有价值的见解,最终促进了手写文本识别技术的进步。
虽然像英语、阿拉伯语和瑞典语这样的语言已经有大量公开获取的数据集,大大促进了各自领域的研究,但对于汉语手写文本识别来说,缺乏这样的资源给我们的研究带来了独特的挑战。因此,我们精心进行了数据集的创建和准备工作,以促进我们的实验。本节概述了我们研究基础的数据集收集方法所涉及的过程。
首先,我们收集了日常工作生活中使用的手写数据,包括信件、公告、通知等。收集到所需要的资料后,我们通过扫描设备将其转换为图像数据。接着,基于互联网上存在大量数据的事实,我们利用自动化的爬虫技术从网络上抓取手写字体的图片数据,其中包括书法爱好者提交到网上的数据以及一些学生发布的作业内容。当然,我们也意识到部分收集到的图片数据不符合实际需求,例如背景过于复杂、字体模糊等,因此需要经过人工清理。总体来看,本文共收到了超过38,000份手写汉字图片数据,其中包含超过50万个汉字,手写汉字数据集示例如图3所示。
图3. 手写汉字数据收集
在完成数据整理后,我们使用VIA标注工具 [
图4. 裁剪后的图像和二值化图像
在数据裁剪完成后,我们将注意力转向了单词和文本行分割的重要任务。这些任务旨在从预处理图像中提取有意义的文本行。为了完成此任务,我们使用了OCRopus工具箱中的分割模块进行处理。该工具箱提供了一系列基于Python的文档分析和识别工具,简化了分割过程。
在数据预处理完成后,创建用于训练的基础真实数据是一个重大挑战。为了解决这一问题,我们利用OCRopus工具箱的核心组件OCRopus-gtedit HTML和extract命令为每个分割的文本行图像准备了基础真实文本数据。图5展示了一个样本分割的文本行图像以及相应的基础真实数据。
图5. 原始的文本行与真实数据
在这个分割文本行的情况下,如果出现了多行被连接成单个单元的情况,会导致分割错误,这样的情况会被严格丢弃,确保了数据的完整性。因此,在3000个分割的文本行中,HCTD数据集包括了2900个文本行图像,而由于没有基础真实数据,有100个文本行图像被排除在外。
为了进一步丰富HCWD数据集,我们对选定的分割文本行图像进行了二次分割,采用了基于轮廓的算法。该算法不仅完成了分割任务,还标记了文本行,利用了之前HCTD中提取的分割文本行图像和它们的基础真实数据。图6展示了一个分割文本行中检测到的单词图像的示例,此外,算法的伪代码见算法1。这一严格的数据准备过程确保了我们研究汉字手写文本识别所需的高质量数据集的可用性。
图6. 从文本行输入图像中检测到的汉字
半自动标记方法的有效性高度依赖于检测程序的准确性。正如图6所示,最初的6个连续单词被精确检测和标记,显示了该方法简化标记过程的潜力。然而,如果两个连续的单词被错误地检测为一个单词,就会导致后续的标记错误。为了解决这个问题,还需要对数据重新进行手动标记。
为了确保数据集的整体质量和可靠性,我们进行了细致的手动重新标记工作,涉及纠正最初由于检测错误而错误标记的单词标签。由于这一勤勉的策划过程,我们制作了一个名为HCWD的全面数据集,共包括10,550个单词。另外,为了增强我们模型的鲁棒性和通用性,我们通过合成的方法制作了合成文本行数据共290,000个,合成的单词数据共500,000个。这些合成数据库对于微调模型、调整权重和优化超参数以增强识别性能起到了重要作用。表1中列出了数据集的具体划分结果。
数据集 | 总数 | 训练 | 测试 | 验证 |
---|---|---|---|---|
HCTD | 2900 | 2340 | 560 | - |
HCWD | 10,550 | 8532 | 2108 | - |
合成的文本行 | 290,000 | 174,000 | 58,000 | 58,000 |
合成的单词 | 500,000 | 300,000 | 100,000 | 100,000 |
表1. 数据集统计
本文的训练设备采用一台高性能的图形工作站,其硬件配置包括英特尔Core i9-13900K (3.60 GHz) CPU、128 GB RAM和GeForce RTX 4090 24G GPU,操作系统为Ubuntu。集成开发环境采用了Python 3.6、Keras库与TensorFlow框架进行搭建。为了确保模型的鲁棒性,我们对所有提出的网络进行了预训练,使用了合成生成的汉字书写文本行图像。为了保持一致性和优化,我们采用了RmsProp优化器,并将批处理大小设置为8,以防止过拟合并提高效率。我们还配置了早期停止机制,在验证损失值在20个轮次内没有显著改善时触发。
本文提出的模型识别性能的评估基于两个关键指标:字符错误率(CER)和单词错误率(WER)。这些指标作为基本的衡量标准,用于评估手写识别系统的准确性和可靠性。CER通过计算Levenshtein距离来量化字符识别的准确性,该距离测量对齐识别文本与基础真实文本所需的字符级操作(替换、插入和删除)的累积数量。较低的CER值表示字符级别识别的准确性更高,表明识别字符与真实字符之间的匹配更接近。类似地,WER通过量化识别文本中词语转录的准确性来衡量识别文本和实际内容之间的差异。它计算了对齐识别单词与基础真实文本所需的单词级操作(替换、插入和删除)的累积数量。较低的WER值反映了手写词语转录的准确性更高,表明识别单词与真实内容之间的对应更为紧密。
在手写识别的背景下,实现较低的CER和WER值表明系统在解码手写文本方面更准确和可靠。这些指标在评估系统性能时至关重要,它提供了有关其准确转录手写字符和单词的能力以及识别模型的整体有效性的依据。
本文的第一个实验旨在展示所提出的模型在使用文本行数据集时的识别性能。实验结果见表2,其中列出了每个模型在手写文本识别环境中的表现数据。
网络模型 | WER (%) | CER (%) |
---|---|---|
CNN-LSTM | 13.5 | 8.15 |
GNN-LSTM | 12.8 | 7.12 |
GNN-GRU | 12.51 | 6.92 |
GCSEN | 11.11 | 6.72 |
表2. 在HCTD数据集上的实验结果
根据表2中的结果,明显可见本研究提出的模型GCSEN在单词错误率(WER) 11.11%和字符错误率(CER) 6.72%的情况下表现出色,突显了该模型在手写汉字识别方面的优势。相比之下,虽然GNN-GRU模型的表现不俗,但其WER为12.80%,CER为7.12%。值得注意的是,GNN-GRU模型优于CNN-LSTM模型,凸显了前者在汉字识别方面的优势。
为了进一步研究合成生成数据集对我们的识别模型性能的影响,我们进行了一项从头开始使用手写数据集进行训练的实验。实验结果显示,所有模型的性能都显著提升,因为所提出的模型的WER和CER值均减少了约11%。这些结果突显了使用合成数据集对模型进行预训练后对整体识别性能的提升起到了积极的作用。合成数据的利用不仅增强了模型的适应性,还有助于减少识别错误,进一步强调了这种方法在手写文本识别领域的有效性。
本研究的第二个实验着重于评估所提出的模型在单词识别方面的性能,采用了HCWD数据集。实验结果详见表3,展示了模型在识别该特定数据集中的手写文本方面的能力。
网络模型 | WER(%) | CER(%) |
---|---|---|
CNN-LSTM | 11.75 | 7.55 |
GNN-LSTM | 9.24 | 6.46 |
GNN-GRU | 9.08 | 6.41 |
GCSEN | 7.17 | 6.22 |
表3. 在HCWD数据集上的实验结果
通过表3中的结果,明显可见本文提出的GCSEN模型在汉语手写文本识别领域持续展现出优越性。该模型超越了先前提出的其他模型,在识别准确性和效率方面提供了更高水平。这一结果强调了所提出的模型在应用于HCWD时的稳健性和多功能性,重新确立了其处理各种风格和形式的手写文本的能力,进一步巩固了其作为汉语手写文本识别领先解决方案的地位。
第二个实验的积极结果进一步强化了所提出的模型在增强手写文本识别领域的承诺,特别是在复杂手写汉字的背景下,并强调了其在从手写文件中准确识别文本的各种应用中的潜力。我们实验的结果突显了基于Transformer网络相对于先前最先进的模型的显著优势。除了改进的识别性能外,基于Transformer的模型还具有更好的参数效率。这意味着它在需要更少计算资源的情况下取得了显著的结果,使其成为更高效和可扩展的解决方案。
然而,需要承认,汉字与许多其他文字一样,存在独特的挑战。这些文字包含具有相似语音但不同视觉形状的字符,真实值与输入图像之间的差异构成了识别性能的挑战。模型识别视觉上相似字符的能力是一个不断改进的过程。在文本行和基于词的实验中,观察到所提出的网络在处理共享相似形状的字符或处理样本训练数量有限的字符时存在局限。此外,连字的存在,即具有特定形状和含义的字符组合,也显著影响了模型的识别性能。
为了更好地解决这些限制并增强模型的能力,需要扩展更多样化的训练数据集。该数据集应涵盖更广泛范围的每个字符样本,特别关注因视觉相似性或训练数据稀缺性而带来挑战的字符。持续完善和扩展数据集有助于提高字符区分和识别准确性,进而推动模型在识别手写汉字方面的性能。
近年来,随着机器学习技术的进步和大规模数据集的可用性,离线手写文本识别(HTR)取得了显著成就,促进了高效识别模型的设计。然而,对于以汉字为基础的语言,如汉语,HTR领域仍相对未被充分探索,需要显著改进。本文通过精心准备了两个关键数据集:一个包含10550个词的HCWD和一个包含2900个文本行的HCTD,这些数据集经过精心收集。利用这些数据集,我们进行了一系列实验,以识别单个词和完整的文本行。我们的方法利用了门控卷积作为特征提取层,随后采用强大的Transformer网络将提取的特征转录成文本。此外,我们对最近提出的模型进行了彻底分析,包括CNN-LSTM、GNN-LSTM和GNN-GRU网络。实验结果表明,我们的模型在手写汉字和文本行识别方面具有优势。凭借经过精心准备的手写测试数据集,所提出的GCSEN模型在HCWD上取得了显著成效,其字符错误率(CER)为6.22%,单词错误率(WER)为7.17%;在HCTD数据集上的结果CER为6.72%,WER为11.11%。相对于GNN-GRU模型,本文的模型的识别性能提升约11%。展望未来,我们计划通过整合语言建模技术和扩展我们的数据集,进一步提升手写词和文本行的识别能力。
本文由“南网高层次人才特殊支持计划”项目资助。
罗序良,吴毅良,刘翠媚,郭凤婵. 基于门控卷积和堆叠自注意力的离线手写汉字识别算法研究Research on Offline Handwritten Chinese Character Recognition Algorithm Based on Gated Convolution and Stacked Self-Attention[J]. 计算机科学与应用, 2024, 14(05): 48-60. https://doi.org/10.12677/csa.2024.145113
https://doi.org/10.1016/j.patcog.2012.06.021
https://doi.org/10.1007/978-3-540-78199-8_14
https://doi.org/10.1109/TPAMI.2010.141
https://doi.org/10.3390/app12178521
https://doi.org/10.1109/ICDAR.2017.20
https://doi.org/10.1109/ICDAR.2017.111
https://doi.org/10.1109/TASSP.1979.1163188
https://doi.org/10.1109/ICDAR.2017.174
https://doi.org/10.1109/FIT.2017.00071
https://doi.org/10.1109/ICDAR.2009.50
https://doi.org/10.19734/j.issn.1001-3695.2018.09.0784
https://doi.org/10.19768/j.cnki.dgjs.2023.24.021
https://doi.org/10.1145/3343031.3350535