为推动核电厂配置风险管理工作的实施,以核电厂操纵员日志为研究对象,开展非结构化文本语义识别研究,自动提取其中的设备和状态等风险配置参数信息。经过文本预处理和特征工程,开发基于注意力机制的深度学习模型,对文本进行编码和推理,实现实体定位和状态识别等功能。通过3500条人工标注数据进行初步模型训练后,语义识别模型的准确率可达到83%,实现了日志文本中缩写设备、单个设备及状态、多个设备及状态的有效识别和标准化输出。 In order to promote the implementation of nuclear power plant configuration risk management, a study was conducted on unstructured text semantic recognition based on nuclear power plant operator logs, automatically extracting risk configuration parameter information such as equipment and status. After text preprocessing and feature engineering, a deep learning model based on attention mechanism was developed to encode and infer text, achieving functions such as entity localization and state recognition. Through preliminary model training with 3500 manually annotated data, the accuracy of the semantic recognition model can reach 83%, achieving effective recognition and standardized output of abbreviated devices, single devices and states, and multiple devices and states in log text.
为推动核电厂配置风险管理工作的实施,以核电厂操纵员日志为研究对象,开展非结构化文本语义识别研究,自动提取其中的设备和状态等风险配置参数信息。经过文本预处理和特征工程,开发基于注意力机制的深度学习模型,对文本进行编码和推理,实现实体定位和状态识别等功能。通过3500条人工标注数据进行初步模型训练后,语义识别模型的准确率可达到83%,实现了日志文本中缩写设备、单个设备及状态、多个设备及状态的有效识别和标准化输出。
配置风险管理,非结构化文本,语义识别,注意力机制
Xingchen Yang, Yongyong Yang, Wei Wei
China Nuclear Power Operation Technology Corporation Ltd., Wuhan Hubei
Received: Nov. 22nd, 2023; accepted: Dec. 1st, 2023; published: Jan. 8th, 2024
In order to promote the implementation of nuclear power plant configuration risk management, a study was conducted on unstructured text semantic recognition based on nuclear power plant operator logs, automatically extracting risk configuration parameter information such as equipment and status. After text preprocessing and feature engineering, a deep learning model based on attention mechanism was developed to encode and infer text, achieving functions such as entity localization and state recognition. Through preliminary model training with 3500 manually annotated data, the accuracy of the semantic recognition model can reach 83%, achieving effective recognition and standardized output of abbreviated devices, single devices and states, and multiple devices and states in log text.
Keywords:Configuration Risk Management, Unstructured Text, Semantic Recognition, Attention Mechanism
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
为更好地保障核电厂的安全稳定运行,国家核安全局提出了配置风险管理技术政策,要求核电厂建立与应用配置风险管理体系,实现对电厂风险水平的有效控制和管理 [
配置风险管理通常使用风险监测工具来开展。风险监测工具需根据系统和部件的实际状况确定实时风险,从而反映出当前电厂的风险水平,通常需要输入设备、状态、时间等风险配置参数信息,经计算后输出风险评价结果。核电厂操纵员日志能全面且及时地记录电厂系统设备状态变化信息,是风险配置参数的可靠来源,但由于其为非结构化的文本数据,为设备和状态等风险配置参数的提取带来了困难。
在工业数字化发展潮流下,核能数字化、智能化是未来核电技术的发展趋势。江苏核电的洪伟等人通过自动语义分析应用研究,实现了维修作业中缺陷申请单的自动分票 [
本文将对核电厂操纵员日志的智能化语义识别开展研究,以获取其中的风险配置参数信息,研究方案如图1所示。通过对核电厂操作日志进行语义解析并结合核电专家经验及专业词典制定语料处理规则,开发基于注意力机制的神经网络模型,进行文本标注训练和模型优化后以获取所需的语义识别结果。
核电厂操作日志是电厂操纵员针对核电厂运行相关的操作记录,包括操作描述、类型、模式、编码、设定值、时间等众多内容。核电厂的配置风险管理需要根据设备的可用性状况进行风险计算,因此需提取出日志文本中的设备编码及设备状态等信息,以作为配置风险管理的参数输入。由于物理环境、语法及书写习惯的不同,操纵员的日志描述具有多样性、模糊性及非规范性,为非结构化自然语言文本的语义识别带来了较大困难。
日志文本主要以夹杂中文汉字、英文字母、数字及特殊符号的短文本形式出现,内容形式具有较大差异性。不规范的编码格式及表达样式会对设备编码及对应状态的识别造成较大干扰,具体日志解析结果如表1所示。
图1. 研究方案及框架
表1. 日志文本解析及示例
虽然核电厂的设备编码有一定规律性,具有固定的字母和数字组合,但描述其状态的语言和语序存在模糊性,且日志文本中存在其它类型的字母和数字编码及多样化的组合形式,加上不规范的书写习惯、复杂的操作环境、以及缺少的核电专业语料库,无法基于现有知识或模型提供有效参考,需针对各种日志类型进行语义识别研究。
核电厂日志语义识别模型,需实现对非结构化文本的语义解析,以提取其中的设备、状态、控制等信息。本研究采用了主流的开源框架和基础模块(主要基于Python语言,其中自然语言处理基于Pytorch框架),开发面向日志工单的风险配置参数语义识别模型,以实现实体识别和状态识别功能。另基于给定的语料库规则及领域词典进行了解析结果的验证和纠正,保证解析结果的准确性。模型开发最终实现了语料预处理、特征工程及语义识别等功能模块。
语料预处理模块关注语料清洗和分词过程,首先根据专业经验设定了清洗规则,用以从日志工单文本中筛选有效信息 [
特征工程模块将预处理后的字词表示成计算机能够识别的数据类型。词嵌入是一种将自然语言中的字词映射到高维向量空间中的技术,它能够将词汇之间的语义关系编码为向量空间中的距离关系,从而用于后续语义识别模型的训练。Skip-gram和CBOW是两种常用的词嵌入模型,它们基于神经网络的方法,通过学习词汇周围的上下文信息来生成词向量 [
语义识别模块通过基于注意力机制的深度学习模型,能克服文字表达中的模糊性,实现实体定位和状态识别等功能。注意力机制是一种用于处理序列数据的深度学习模型,它可以自适应地关注输入序列中的重要部分,从而在序列数据处理任务中取得更好的性能,具有较好的泛化性能和语言表达能力 [
如图2所示,本研究中的语义识别模型先通过预处理和特征工程得到文本的字向量,之后再通过长短期记忆人工神经网络(LSTM) [
图2. 语义识别模型
为完善模型功能,需基于人工标注的日志文本数据进行模型训练,从而得到较为准确的语义识别模型。模型训练时,人工标注数据的准确性及数据量将明显影响模型的学习训练效果,最终影响模型的语义识别结果。
在本研究中主要关注日志中的设备编码及设备状态记录。其中,设备编码一般由机组、工艺系统、设备类型及数字编号组成,具有特定格式,如2SEC001PO。设备状态涵盖多种操作及动作类别,如:
设备退出状态:隔离、挂牌、停运、停役、退出、不可用、关闭、断电、断开等。
设备返回状态:解除隔离、摘牌、投运、运行、复役、打开、开启、启动、可用、恢复、送电等。
日志文本中较常见的设备状态描述及其出现比例如表2所示。
表2. 设备状态及对应比例
将3500条人工标注完成的日志数据输入语义识别模型中进行初步学习训练,其中,80%的标注数据作为训练集输入,20%的标注数据作为测试集输入,可得到如图3所示的准确率曲线。图3中的横坐标为训练轮数,纵坐标为模型识别与人工标注比较得到的准确率。每轮训练后会给出训练集和测试集的准确率,测试集的准确率可以反映当前模型的训练效果。模型默认进行迭代训练,并会自动保存在当前测试集上表现最优,即准确率最高的模型参数,在下次训练时自动读取此参数,从之前训练的结束位置以新的训练集开始训练。由图3的准确率曲线可知,模型初步训练后的准确率可达到83%。图4为模型训练的损失率曲线,表征了模型训练中对训练集的拟合,损失率越小表示对训练集的拟合效果越好。
图3. 模型训练的准确率
图4. 模型训练的损失率
将初步训练完成后的语义识别模型应用在日志文本的识别中,可得到较好的识别结果,如表3所示,输入日志文本内容,可输出设备编码和设备状态的语义识别结果。
表3. 语义识别结果
续表
分析可知,针对日志文本中较常出现的设备缩写类型,语义识别模型可将缩写的设备编码拆分并重组,实现标准化的设备编码输出,同时准确识别到相应的设备状态。针对含有空格的不规范设备编码也可进行规范化处理。
含有单个设备和单个状态的日志文本一般较简单且易于识别,在本研究的初步模型中可达到92%的设备和状态识别准确率。含有单个设备和多个状态的日志文本则较难识别,该类型的日志针对一个设备可能进行多项操作和状态描述,甚至给出设备状态变化的条件,需要结合上下文语义和具体情况进行实际状态判断,在人工标注训练样本中体现一致的判断规则,经大量样本学习后提高语义识别模型进行语义判断的准确性。
含有多个设备的日志文本识别具有复杂性,可分为多个设备单个状态和多个设备多个状态的日志类型。针对同一状态下的多个设备,语义识别模型会将每个设备分别匹配到上述状态并输出多个设备和状态标签。针对含有多个设备和多个状态的日志内容,语义识别模型可识别出各个设备并分别匹配到相应的设备状态,去除重复的设备标签后输出最终结果。含有多个设备编码和设备状态的日志内容会对语义识别模型的识别结果造成干扰性,出现设备数量识别不全或设备状态识别错误的情况,针对此类型的日志文本,在本研究的初步模型中可达到74%的识别准确率。
基于少量文本训练得到的语义识别初步模型可作为自动标注工具来辅助人工标注工作,从而较大减少人工标注的工作量,提高文本标注训练效率。如图5所示,将经过初步模型训练后的语义识别模型用于日志文本中设备编码和设备状态的自动识别,得到自动标注数据后进行人工检查及更正,可高效得到更多的日志标注数据,用以进一步训练优化模型。经过大量的标注训练数据输入,可使模型得到更优异的参数特征,最终实现高精度的语义识别语义功能,针对各类型日志文本的识别预计可达到95%以上的准确率。
本文通过语义识别模型开发研究,可实现人工智能在核电领域的应用,对核电数字化发展有重要意义。基于核电厂操纵员日志的自然语言识别研究应用可得到以下结论:
1) 含有单个设备编码和状态的日志文本内容一般较简单且易于识别,含有多个设备编码和状态的日志内容会对语义识别模型的识别结果造成干扰,出现设备数量识别不全或设备状态识别错误的情况。
图5. 模型优化训练
2) 人工标注数据的准确性及数据量将明显影响模型的学习训练效果,最终影响模型的语义识别结果。人工标注数据的错误将造成语义识别模型的学习错误,从而降低识别准确率。训练样本数据较少时,模型将无法充分学习对应特征。
3) 研究结果表明,经初步训练后的语义识别模型准确率可达83%。将初步模型用作自动标注工具来辅助人工标注工作,可减少人工标注的工作量。结合人工检查及修正,提高文本标注训练效率,可获得大量训练样本数据用于模型迭代优化,进一步提高准确率。
杨星晨,杨勇勇,魏 巍. 核电厂非结构化风险配置参数语义识别研究Research on Semantic Identification of Unstructured Risk Configuration Parameters in Nuclear Power Plants[J]. 核科学与技术, 2024, 12(01): 27-35. https://doi.org/10.12677/NST.2024.121004
https://doi.org/10.48550/arXiv.1301.3781
https://doi.org/10.18653/v1/P17-1113
https://doi.org/10.11772/j.issn.1001-9081.2020101634
https://doi.org/10.1155/2017/4898963