Construction and Application of Industrial Pollution Management Knowledge Graph: Taking Jiangmen City as an Example
With the rapid development of industrialization and urbanization, the problem of industrial pollution has become increasingly serious, posing a significant threat to the environment and human well-being. Industrial pollution data are multi-sourced and heterogeneous, requiring the use of knowledge extraction and fusion techniques for application in industrial pollution management and decision support. This study proposes a knowledge graph approach to integrate and model key data, entities, and relationships within the field of industrial pollution industrial pollution knowledge in terms of concepts, attributes, and instances. Using Jiangmen City in Guangdong Province, China, as a case study, we constructed a comprehensive industrial pollution knowledge graph by integrating company, pollutant, product, and other relevant information through knowledge extraction, ontology construction, and knowledge storage technology. The experimental results show that our knowledge graph construction method effectively reveals potential associations among polluted site data, providing not only intuitive insights but also valuable data support and decision-making references for decision makers. Additionally, the graph contributes to the broader research community by offering accessible data for related studies and applications.
Knowledge Graph Construction
随着我国经济飞速发展,在工业化、城市化进程中,产业活动通常伴随着能源消耗、物质排放和废弃物处理等环境影响,如废水排放、固废沉降、管道泄漏、危化品运输储存等
因此,本课题提出构建一个产业污染场地的知识图谱,将知识图谱技术应用在污染场地数据管理和挖掘中,使用BiLSTM-CRF模型进行实体抽取,利用本体构建方法对产业所在城市、地区、类型、产物、污染物等信息进行建模,并在Neo4j图数据库存储和对产业污染知识图谱进行可视化。本课题构建的产业污染知识图谱方法在中国广东省江门市进行了实验,通过构建产业污染知识图谱,为决策者提供信息挖掘技术,为产业污染治理提供技术支持。相关数据和代码可以通过tiancaiziru/BiLSTM-CRF (
知识图谱具有丰富的语义性,能够整合多源异构数据,将复杂的数据转化成由“实体–关系–实体”组成的三元组,从而表示并存储知识中的各种实体及其关系。这些实体和关系共同构成了一个复杂的网络,使得知识的存储相互关联并得到相互支持。考虑到污染场地数据既包括结构化数据也包括非结构化数据,如文本、图像、表格等,本研究采用了自顶向下的方法来构建污染场地的知识图谱。知识图谱构建一般方法如
如
知识抽取是从不同来源和结构的数据中提取知识,并将其转化为将其结构化数据以存储于知识图谱的过程。对于结构化和半结构化数据,通常只需进行简单的预处理和映射,便能作为后续数据分析系统的输入,相关技术已相当成熟。然而,对于非结构化知识,需要应用自然语言处理技术来提取实体和关系,这需要借助信息抽取和深度学习的技术来帮助提取有效信息。目前,知识抽取技术的主要难点和研究方向包含实体抽取、关系抽取和事件抽取三个子任务。实体抽取,也称为命名实体识别(NER),能够识别文本中具有特定意义的实体及其边界,这些命名实体包括人名、地名、时间等。NER在自然语言处理领域有着广泛的应用,如问答系统、知识图谱构建等。在NER任务中,基于词典和规则的抽取方式需要人工介入,随着信息增长,此类方法结构复杂,抽取效率较低。基于统计模型的抽取方法需要对上下文等数据进行标注,并利用统计方法训练模型,常用的模型包括支持向量机(SVM)
模型的损失函数公式:
(1)
(2)
其中,P为Bi-LSTM的输出矩阵,Pi,yi表示序列y中第yi个标签的发射得分,A为tag之间的转移矩阵, 表示从第yi-1个标签到第yi个标签的转移得分。y是标记序列,x是单词序列,Score (x, y)即单词序列x产生标记序列y的得分,得分越高,说明其产生的概率越大。
计算所有可能的标签序列的分数和:
(3)
知识存储旨在为知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算。知识存储的对象包括基本属性知识、关联知识、事件知识、时序知识和资源类知识等。通过对数据进行处理,获取有效的信息,将不同的数据转化为结构化的三元组数据,依据数据量的大小、数据特征以及应用需求,选取合适的存储模式,将获取到的数据存储起来,形成知识图谱。知识存储是将已有的知识图谱进行存储,目前知识图谱的存储方式包括基于关系型数据库存储、基于RDF数据库存储和基于图数据库存储。RDF数据库使用XML语法来表示数据模型,通过三元组形式描述资源的特性及其相互关系,并将这些三元组数据以文本形式存储。图数据库使用节点和边存储数据,目前主流的图数据库包括DgraphDB、Neo4j、JanusGraph等
知识图谱可视化通过图形化手段展示知识图谱中的实体、关系和属性等信息,帮助用户直观理解知识图谱的结构和内容,并支持用户探索其中的实体、属性和关系。用户可以直接在知识图谱可视化工具中进行搜索、推理等操作,进而能够挖掘数据中的规律和隐藏的信息。现阶段主要的知识图谱可视化工具包括Neo4j Bloom、D3.js、Cytoscape.js等。
本文使用课题组所收集的江门市产业污染数据作为主要数据源,使用BiLSTM-CRF模型对数据进行实体抽取,将处理好的数据转换成三元组,通过自顶向下的方法细分概念构建本体,并基于Neo4j构建并存储产业污染知识图谱。
本课题数据来源于课题组收集的数据,通过网络爬虫爬取百度百科与江门市产业污染相关的企业信息,原始数据为大量文本数据和表格。数据集样式如
对于非结构化数据,产业污染领域的知识抽取过程中,需要专家手动构建规则模板进行命名实体识别,建设周期长。为了提高抽取效率和准确率,本课题使用了BiLSTM-CRF深度学习模型进行产业污染实体抽取。本课题的研究对象为江门市的产业污染,数据中收集到一些不属于产业污染范畴的案例,需要将其去除重复性操作,并参考实体的命名规范和结合专家意见对信息进行标注,将数据集的格式转换为BIO标注格式,数据集的每个字符均被标记成“B-product”、“I-product”或“O”,最终形成命名实体识别的标准数据集。使用BiLSTM-CRF模型进行命名实体识别,将80%的标注语料作为训练集,10%的预料作为验证集,10%的语料作为测试集。为了评价命名实体识别算法效果,通过使用精确率(Precision),召回率(Recall)和F1值作为评价识别的性能指标。精确度以预测结果为判断依据,预测为正例的样本中预测正确的比例。召回率以实际样本为判断依据,实际为正例的样本中,被预测正确的正例占总实际正例样本的比例。F1分数被定义为精确率和召回率的调和平均数。
主体名称 |
住所/经营场所/驻在场所 |
行业门类 |
经营范围 |
台山市健冠五金塑料模具有限公司 |
台山市四九镇台商投资示范洞美工业区32号 |
制造业(C) |
生产、销售:五金模具、塑料模具、塑胶制品、五金制品、铝制品、自动机械化设备。 |
台山市元超电子有限公司 |
台山市冲蒌镇红岭工业区红岭中路7号之六 |
制造业(C) |
生产、销售:电子元器件、线路板(不含电镀)、LED灯具及配件。 |
江门市冠捷电子有限公司 |
江门市江海区高新西路46号B1厂房三楼 |
制造业(C) |
五金配件加工;销售:线路板材料及其配件、电子元器件。 |
江门市新会区金桥化工厂 |
江门市新会区罗坑镇天湖村委会锦龙村民小组 |
制造业(C) |
生产、销售:水性涂料、水性漆、水性乳液、水性胶粘剂、水溶性树脂、水性聚合物、胶浆、胶粘剂。 |
台山市尊尚装饰工程有限公司 |
台山市水步镇台鹤中路100号新雅苑8幢104商铺 |
建筑业(E) |
承接装饰工程;装饰设计;门窗加工、安装;销售:建筑材料。 |
衡量标准F1值公式:
(4)
精确率公式:
(5)
召回率公式:
(6)
模型 |
precision |
recall |
F1 |
accuracy |
BiLSTM-CRF |
83.55% |
83.01% |
83.28% |
96.85% |
实体抽取评价结果如
针对本文提出的污染场地知识图构建方法,以广东省江门市的污染场地数据为例进行了实例分析。抽取实体如
实体类型 |
实体数量 |
关系类型 |
关系名称 |
关系数量 |
公司 |
21,221 |
公司→城市 |
位于 |
21,221 |
城市 |
1 |
公司→区/市 |
位于 |
21,221 |
区/市 |
7 |
公司→行业 |
行业类型是 |
21,221 |
行业 |
519 |
公司→产品 |
生产 |
56,853 |
产品 |
160 |
公司→污染物 |
排放 |
114,408 |
污染物 |
58 |
行业→污染物 |
排放 |
206 |
本课题采用斯坦福大学提出的领域本体构建七步法,以构建产业污染知识图谱本体。首先,确定产业污染领域的本体范围,涵盖实体、属性和关系。通过文献综述、专家咨询以及政策法规分析等途径,收集与产业污染相关的知识。随后,对收集到的知识进行实体抽取,并对抽取出的实体、属性和关系进行分类与整理。接着,基于提取的信息构建本体模型,包括产业污染领域实体的结构、属性定义和关系描述。然后,对构建的本体模型进行验证和评估,并与专家进行讨论,以确保模型的准确性。最后,将本体模型应用于知识图谱,并根据监控和反馈情况进行必要的改进。
从
在存储产业污染知识图谱方面,Neo4j图数据库展现出更大的灵活性。Neo4j能够有效地表示实体间的关系、属性以及复杂的拓扑结构,支持快速查询和遍历大规模图形数据集,并提供可视化工具以便于理解数据间的关系,同时允许批量导入节点进行存储。综合以上考虑,本课题使用Neo4j图数据库存储知识图谱,实现从概念、属性、实体展示产业污染知识图谱,并使用图数据库Neo4j的Cypher查询语言遍历查询关系图。
通过分析污染场地在各行业的分布特征,可以更轻松地理解和分析数据,进而帮助决策者制定适当的治理措施,并确定处理的优先级。并为不同利益相关方之间的交流和协商提供有效的依据,从而提高治理效果,更有效地减少污染带来的风险。目前,文本数据的可视化主要是图表展示,但许多方法仅停留在数值比较和基础数据列举上,未能直观地揭示数据间的关联性。考虑到污染场地通常具有多种生产活动和多功能分区的特点,如果不能直观准确地展示数据之间的关系,就无法为后续的污染修复工作提供实质性的方案支持。因此,决定采用关系图可视化的方法来反映文本数据之间的关联性。将实体与关系导入图数据库中,能够根据需求进行数据可视化,展示江门市产业污染的知识图谱。
路径挖掘作为知识图谱中的一种方法,能够揭示实体间的潜在关系和隐藏信息。利用知识图谱的路径挖掘技术可以深入了解数据挖掘过程,进而发现数据中的潜在关系和模式。通过结合领域知识,可以提高数据挖掘的准确性和效率。本课题运用路径挖掘技术,针对产业污染知识图谱,分析了特定地区的行业分布以及特征污染物的区域分布情况。针对江门市,本课题利用知识图谱关联公司所在行业、地区及排放的污染物,以此展示与公司节点相连接的地区。以拥有最多公司数量的地区为例,我们统计了与各污染物的连接数量,并据此对污染物进行排序。最终,我们识别出了该地区主要排放的重金属污染物。
使用Neo4j软件中的neomap插件,结合公司的经纬度信息,采用图聚类算法在知识图谱中识别出密集连接的子图。
在产业污染领域,污染物的致污因素至关重要,它们是污染场地修复和管理的关键依据。这有助于工作人员分析污染物的来源和传输途径,进而评估并制定相应的治理措施。在产业污染知识图谱中,公司相关的产品、污染物、行业、城市、地区和注册资本等信息均通过三元组来表示。在Neo4j数据库中,使用Cypher语言来检索相关信息。通过设定复杂的规则和语法,我们能够搜索特定的Cr(铬)污染物。查询结果显示了排放Cr的公司、所属行业类型、公司所在地区、生产的产品及注册资本等信息(见
*通讯作者。
1protégé软件下载地址: