陕北地区煤炭资源丰富,是我国重要的能源化工基地。为了寻找合理的煤炭资源利用策略,实现资源的可持续发展,本文根据大量陕北地区的煤炭资源数据,包括陕北地区煤炭使用量和浪费量,并使用机器学习算法进行回归分析。首先,对数据进行预处理,去除无用信息。然后,使用五类回归模型分析煤炭使用量数据,选出最佳模型对煤炭浪费量进行准确预测。最后,制定出符合可持续发展原则的策略,减少不必要的资源浪费和环境污染,提高煤炭资源的综合利用效率。 The northern Shaanxi region is rich in coal resources and is an important energy and chemical industry base in China. In order to find reasonable coal resource utilization strategies and achieve sustainable development of resources, this article is based on a large amount of coal resource data in the northern Shaanxi region, including coal usage and waste, and uses machine learning algorithms for regression analysis. Firstly, preprocess the data to remove useless information. Then, use five types of regression models to analyze coal usage data and select the best model to accurately predict coal waste. Finally, develop strategies that comply with the principles of sustainable development, reduce unnecessary resource waste and environmental pollution, and improve the com-prehensive utilization efficiency of coal resources.
陕北地区煤炭资源丰富,是我国重要的能源化工基地。为了寻找合理的煤炭资源利用策略,实现资源的可持续发展,本文根据大量陕北地区的煤炭资源数据,包括陕北地区煤炭使用量和浪费量,并使用机器学习算法进行回归分析。首先,对数据进行预处理,去除无用信息。然后,使用五类回归模型分析煤炭使用量数据,选出最佳模型对煤炭浪费量进行准确预测。最后,制定出符合可持续发展原则的策略,减少不必要的资源浪费和环境污染,提高煤炭资源的综合利用效率。
可持续发展,机器学习,煤炭资源,回归分析
—Taking the Northern Shaanxi Region as an Example
Yiting He1, Yinhao Xie2, Tongyan Zhang3
1School of Mathematics and Computer Science, Yan’an University, Yan’an Shaanxi
2School of Chemistry and Chemical Engineering, Yulin University, Yulin Shaanxi
3School of Chemistry and Chemical Engineering, Xianyang Normal University, Xianyang Shaanxi
Received: Sep. 2nd, 2023; accepted: Oct. 2nd, 2023; published: Oct. 11th, 2023
The northern Shaanxi region is rich in coal resources and is an important energy and chemical industry base in China. In order to find reasonable coal resource utilization strategies and achieve sustainable development of resources, this article is based on a large amount of coal resource data in the northern Shaanxi region, including coal usage and waste, and uses machine learning algorithms for regression analysis. Firstly, preprocess the data to remove useless information. Then, use five types of regression models to analyze coal usage data and select the best model to accurately predict coal waste. Finally, develop strategies that comply with the principles of sustainable development, reduce unnecessary resource waste and environmental pollution, and improve the comprehensive utilization efficiency of coal resources.
Keywords:Sustainable Development, Machine Learning, Coal Resources, Regressive Analysis
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
当今社会,煤炭资源是世界能源产业的重要组成部分。然而,随着全球可持续发展议程的不断推进,煤炭资源的开采和利用方式面临着日益严峻的挑战。煤炭资源的不合理开采和过度利用已经导致了环境污染、生态破坏、资源浪费以及社会问题。因此,迫切需要采取措施来改善煤炭资源的利用策略,以实现可持续发展目标。本文的研究动机有以下四个方面。
1) 可持续发展需求。随着全球对环境保护和可持续发展的关注度不断提高,各国政府都在积极推动低碳经济的发展,以实现经济、社会和环境的协调发展。中国政府也明确了实现低碳经济和环境友好型发展的目标,并为此采取了一系列措施,以减少对环境的破坏和资源的浪费。因此需要针对这一问题开展深入研究,为实现可持续发展提供有力支撑。
2) 机器学习技术的崛起。近年来,随着大数据和人工智能技术的不断发展,机器学习技术在各个领域的应用越来越广泛。机器学习技术在数据分析和预测领域表现出了显著的优势,可以帮助人们更好地把握市场变化和资源需求,进而为企业和政府决策提供更加准确的数据支持。针对煤炭资源的利用问题,机器学习技术的应用可以帮助我们更好地预测煤炭市场波动、资源需求以及环境影响等方面的情况,为优化煤炭资源的利用策略提供了新的可能性。
3) 陕北地区煤炭资源的特殊性。陕北地区是我国煤炭资源最为丰富的地区之一,也是我国能源的重要基地。然而,该地区面临着许多特殊的问题,如环境脆弱、资源枯竭等。在煤炭资源利用方面,需要采取科学合理的方式,既要充分发挥煤炭资源的优势,促进地区经济发展,又要积极探索新的技术和方法,减少对环境的破坏和资源的浪费。因此,针对陕北地区煤炭资源的科学管理对于该地区的可持续发展至关重要,同时也为其他煤炭资源富集地区提供了有价值的经验。
4) 政策制定的需求。政府和决策者在进行煤炭资源管理和政策制定时需要科学、准确的数据支持。通过对历史数据的分析,以及未来市场和环境变化的预测,可以为政府部门提供更加准确、实时的决策支持。机器学习技术的应用可以帮助我们更好地分析数据,把握市场和环境的变化趋势,进而为政府制定更加科学合理的政策和措施提供有力支撑。
煤炭作为世界三大工业能源之一,其开采量与使用量逐年递增。我国虽然地大物博,资源储量大,但在长期不合理开采下,煤炭所带来的高污染、高浪费问题日益突显。现有的煤炭资源开采技术有“长壁开采121工法”,这种开采体系不仅造成严重资源浪费,开采率不足50%,煤炭资源浪费量达到20%至25%,煤炭资源每年的浪费量高达34.5亿多吨,价值2万多亿元,这种方法还带来安全隐患,破坏原有的生态环境,造成严重的环境污染。为解决此类问题,需要合理设置开发条件,提高煤炭资源利用率。我国西部地区煤炭资源丰富,开发时间早,开采条件优越。陕西省煤炭资源发布见图1。
图1. 陕西省煤炭分布地图
伴随着经济的高速发展,煤炭开采技术的不断进步,陕北地区煤炭产业链面临巨大挑战。在煤炭资源合理利用方面,马洁琼 [
本文通过分析各城市煤炭数量和总产能(见图2)和陕西省原煤分月产量及增速(见图3),针对陕西省的煤炭资源开采与利用提出了更为精准的优化预测方案,并对陕北地区的资源进行精准开采与合理利用,使得资源利用率大大提高,为能源安全上了一份保险。通过考虑各种因素引起的资源浪费,进一步细化了能源使用方案,为煤炭工业的发展带来了一个光明的前景。
图2. 各城市煤炭数量和总产能
图3. 陕西省原煤分月产量及增速
陕北地区煤炭使用量和浪费量的数据通过当地的煤炭企业和政府部门进行获取,同时查阅了中国煤炭市场等权威数据发布机构的公开信息。这些资源可以帮助我们了解煤炭行业的整体趋势和发展动态,进而对陕北地区的煤炭使用和浪费情况进行更为全面和深入的了解。
数据归一化是一种重要的数据预处理技术,它将具有不同尺度和范围的数据转化为统一的尺度,以便更好地进行比较和分析。有助于消除数据之间的量纲差异,提高了数据的可比性。通过数据归一化,能够更清晰地理解陕北地区煤炭数据之间的关系,从而提高模型稳定性。这种处理方法使不同特征具有相似的尺度,有效避免了尺度差异可能引发的偏差问题。
煤炭数据清洗是数据预处理的关键环节,旨在识别和纠正数据集中的错误、缺失、重复或异常数据,以确保数据的准确性、一致性和完整性。包括去除重复数据、填补缺失值、处理异常值、数据类型转换和标准化数据。数据清洗有助于提高数据质量,使其适用于后续的聚类分析、建模和决策制定。具体描述见表1。
数据清洗操作 | 描述 | 处理数量 |
---|---|---|
去除重复数据 | 检查并去除数据集中的重复数据记录 | 108 |
填补缺失值 | 检查缺失值情况,对于缺失的字段使用平均值/中位数/众数进行填充 | 20 |
处理异常值 | 检查异常值情况,遇到异常值直接删除 | 51 |
数据类型转换 | 确保数据字段的类型正确,将日期字段转换为日期格式 | 0 |
标准化数据 | 对数值型字段进行标准化,确保数据在相同的尺度和范围内 | 17 |
表1. 煤炭数据清洗
线性回归 [
决策树 [
图4. 线性回归模型
图5. 决策树模型
随机森林 [
K最近邻 [
支持向量回归 [
图6. 随机森林模型
图7. K最近邻模型
图8. 支持向量回归模型
实验的整体流程如下所示。
1) 煤数据收集和预处理。从相关数据源收集所需数据,并进行预处理。包括数据清洗、缺失值填充、异常值处理等,确保数据的质量和适用性。
2) 模型选择与训练。根据问题的特性和数据的类型,选择合适的回归模型进行训练。包括线性回归、决策树回归、随机森林回归、K最近邻回归和支持向量回归五个类别。
3) 模型评估。使用MSE (均方误差)、MAE (平均绝对误差)、RMSE (均方根误差)、MAPE (平均绝对百分比误差)和NMSE (归一化均方误差)等指标对模型的性能进行评估。
4) 模型优化与调整。根据评估结果,对模型进行优化和调整,包括参数调整、模型融合等。
5) 结果分析。对比和分析不同模型的性能,找出各模型的优势和局限,以及探讨各模型在不同指标上的表现。
在具体实验中,“影响因素”可能在模型的训练、优化、评估等阶段起到影响作用。实验过程中具体的影响因素如下。
1) 数据质量。数据质量对模型的性能有很大影响。高质量的数据可以更准确地反映真实世界的情况,从而提高模型的预测精度。
2) 模型参数调整。模型的参数对其性能有很大影响。例如,对于随机森林和决策树,如果设置过大的树深度,可能会导致过拟合;而对于支持向量回归,如果设置过小的惩罚参数C,可能会导致模型过于复杂,出现过拟合。
3) 评估指标的选择。不同的评估指标可能会得出不同的评价结果。例如,MAE和RMSE对噪声大的数据更为敏感,而MSE则对所有误差同等对待。根据实际问题选择合适的评估指标很重要。
通过MSE、MAE、RMSE、MAPE、NMSE [
MSE (Mean Squared Error,均方误差)是预测值与实际值之差平方的期望值。衡量模型预测精度的常用指标,取值越小,表示模型预测精度越高。( y i 表示真实值, y ^ i 表示预测值,n表示样本数量)
MSE = ∑ ( y i − y ^ i ) 2 n (1)
MAE (Mean Absolute Error,平均绝对误差)是绝对误差的平均值,能反映预测值误差的实际情况。MAE取值越小,模型准确度越高。(Q表示观测值,P表示预测值,n表示观测数量)
MAE = ∑ ( Q − P ) n (2)
RMSE (Root Mean Squared Error,均方根误差)是均方误差的算术平方根,该结果与实际数据的数量级一样。RMSE取值越小,模型准确度越高。( y i 表示真实值, y ^ i 表示预测值,n表示样本数量)
RMSE = s q r t ( ∑ ( y i − y ^ i ) 2 n ) (3)
MAPE (Mean Absolute Percentage Error,平均绝对百分比误差)是实际值与预测值之间的差异与真实值的比例的平均值。MAPE越小,预测准确性就越高。(Q表示观测值,P表示预测值,n表示观测数量)
MAPE = 1 n ∗ ∑ | ( O − P O ) | ∗ 100 (4)
NMSE (Normalized Mean Squared Error,归一化均方误差)是一种归一化的MSE,其计算方式是将MSE除以实际值的平方。NMSE的值越接近于1,说明预测值与实际值的差距越小,模型的准确性就越高。(MSE表示均方误差,var(y)表示目标变量的方差)
NMSE = MSE var ( y ) (5)
各模型评估结果见表2,由表可知,线性回归模型在拟合度方面通常表现出色,模型的拟合程度较高,预测效果较好。这意味着该模型能够很好地适应数据集,并预测目标变量(因变量)和自变量之间的关系。同时,线性回归模型可以有效地利用历史数据和已知的自变量信息来预测未来的因变量值。与其他复杂的机器学习模型相比,线性回归模型在解释性方面也更加直观易懂。
MSE | MAE | RMSE | MAPE | NMSE | |
---|---|---|---|---|---|
Linear Regression | 1.683 | 0.210 | 1.871 | 12.541 | 0.112 |
Decision Tree | 9.319 | 0.302 | 3.548 | 39.870 | 0.314 |
Random Forest | 6.541 | 0.357 | 2.980 | 45.417 | 0.177 |
KNN | 109.134 | 3.548 | 11.647 | 16.389 | 0.767 |
SVR | 212.610 | 5.644 | 14.924 | 26.372 | 1.018 |
表2. 回归模型对比
对五种回归模型对比分析可知,线性回归模型优于其他模型。因此对线性回归模型增加正则项(L1或L2正则项),使得模型复杂度和拟合效果之间取得平衡;减少特征输入个数,即对特征进行筛选,剔除对目标变量影响较小的特征。对数据训练40轮后得到五种指标变化数据(见图9)。根据图4可以看出,随着迭代论述不断增加,回归优化模型的效果越来越好,可以用于预测煤炭资源走势,导入实际数据,我国煤炭行业在开采阶段浪费的煤炭资源比例高达50%。这意味着如果按照年产煤量35亿吨计算,我们一年浪费的煤炭资源有17.5亿吨。
首先,为了提高陕北地区煤炭资源的利用率,我们通过五种回归模型分析了煤炭数据,发现回归模型对煤炭数据预测效果更优。在此基础上,尝试通过对线性回归模型增加正则项来优化模型,优化后的模型在复杂度和拟合效果之间取得平衡,减少了特征输入个数,剔除了对目标变量影响较小的特征,预测分析效果更优。最后,通过智能开采、资源再利用、洁净煤技术、碳捕获和储存技术、建立循环经济模式、环境监测与评估、政策引导等策略,减少不必要的资源浪费和环境污染,极大的提高煤炭资源的
图9. 模型预测结果
综合利用效率,推动煤炭行业的可持续发展。
机器学习在煤炭资源利用优化策略中的应用是一个相对较新的研究领域,其潜力主要在于通过数据分析、模式识别和预测模型,以改进煤炭资源的利用和管理。基于机器学习的煤炭资源利用优化策略的优点如下所示。
1) 数据驱动的决策。机器学习技术可以处理大量的数据,通过识别和解读数据中的模式,为决策者提供更精确的指导。与传统的经验或规则驱动的决策方法相比,机器学习可以更好地利用历史数据和实时数据,提高决策的科学性和效率。
2) 预测性维护和管理。通过机器学习模型,可以对煤炭开采设备的性能进行预测性维护和管理,以预防潜在的问题和故障,降低维修成本。同时,这也有助于提高设备的使用寿命和整体的生产效率。
3) 优化煤炭资源配置。通过机器学习算法,可以优化煤炭资源的配置,包括确定最佳的采矿方法和地点。这有助于提高煤炭资源的利用率和企业的盈利能力。
4) 智能化决策支持:机器学习技术可以为煤炭资源的管理和利用提供智能化的决策支持。例如,通过自然语言处理(NLP)技术,可以从大量的文献和报告中提取有关煤炭资源管理和利用的信息,为决策者提供更全面的信息支持。
何依婷,谢殷豪,张彤言. 基于机器学习的煤炭资源利用优化策略——以陕北地区为例Optimization Strategy for Coal Resource Utilization Based on Machine Learning—Taking the Northern Shaanxi Region as an Example[J]. 可持续能源, 2023, 13(03): 33-43. https://doi.org/10.12677/SE.2023.133004
http://doi.org/10.16525/j.cnki.14-1362/n.2022.03.085
http://doi.org/10.27267/d.cnki.gqfsu.2021.000076
http://doi.org/10.13487/j.cnki.imce.020326
http://doi.org/10.27393/d.cnki.gxazu.2022.000100
http://doi.org/10.13487/j.cnki.imce.019743
http://doi.org/10.16657/j.cnki.issn1673-9132.2023.25.015
http://doi.org/10.19812/j.cnki.jfsq11-5956/ts.2023.15.045
https://doi.org/10.7717/peerj-cs.623