针对于采矿过程中以电机为研究对象的碳排放来源的复杂性以及其影响因素的多样性引起的碳排放短期预测精度不高的问题,结合灰色理论提出一种基于NGSAII-GPR模型的铅锌矿采矿过程碳排放预测方法。首先,对碳排放来源及其影响因素进行分析,采用灰色理论进行聚类分析以归并同类因素;其次,根据灰色关联性分析得到主要影响因素;最后,为解决超参数优化确定问题,将带精英策略的非支配排序遗传算法(NGSAII)引入到高斯过程回归(GPR)模型,提出了一种基于NGSAII-GPR的预测模型。经实验证明,相较于其他超参数优化确定方法,NGSAII能更好地对超参数进行优化确定,且相较于其他常规预测模型,NGSAII-GPR能更精确的预测铅锌矿采矿过程的碳排放量,其预测误差更小。 Considering the low forecasting accuracy problem caused by the complexity of the carbon emission sources from the motor and the diversity of its impacts during the lead-zinc mine mining process, a carbon emission forecasting method for lead-zinc mine mining process is proposed based on improved Gaussian process regression model combined with the grey theory. Firstly, the sources of carbon emission and their impacts are analyzed and the grey theory is used to cluster and merge the similar impacts. Then, the grey relational analysis is applied to obtain the main impacts. Finally, In order to solve the problem of hyperparameter optimization, the non-dominated sorting genetic algorithm (NGSA II) with elite strategy (NGSA II) is introduced into the Gauss process regression (GPR). Meanwhile the NGSAII-GPR Model is proposed. The result shows that NGSA II can better optimize the hyperparameter when compared with other methods. In addition NGSAII-GPR Model can be used to forecast the short-term carbon emission of lead-zinc mine mining process with high accuracy and minimum error compared with other forecasting models.
石达顺1,唐朝晖2,王阳2,牛亚辉2
1深圳市中金岭南有色金属股份有限公司,广东 韶关
2中南大学信息科学与工程学院,湖南 长沙
收稿日期:2018年11月6日;录用日期:2018年11月19日;发布日期:2018年11月26日
针对于采矿过程中以电机为研究对象的碳排放来源的复杂性以及其影响因素的多样性引起的碳排放短期预测精度不高的问题,结合灰色理论提出一种基于NGSAII-GPR模型的铅锌矿采矿过程碳排放预测方法。首先,对碳排放来源及其影响因素进行分析,采用灰色理论进行聚类分析以归并同类因素;其次,根据灰色关联性分析得到主要影响因素;最后,为解决超参数优化确定问题,将带精英策略的非支配排序遗传算法(NGSAII)引入到高斯过程回归(GPR)模型,提出了一种基于NGSAII-GPR的预测模型。经实验证明,相较于其他超参数优化确定方法,NGSAII能更好地对超参数进行优化确定,且相较于其他常规预测模型,NGSAII-GPR能更精确的预测铅锌矿采矿过程的碳排放量,其预测误差更小。
关键词 :灰色理论,聚类分析,关联性分析,GPR,NGSAII
Copyright © 2018 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
人类生产活动导致的温室气体排放,特别是化石燃料燃烧所产生的碳排放是导致全球气候上升的主要原因 [
Xiuli Liu等用灰色预测与神经网络反向传播的组合预测模型来预测西班牙经济部门的能源消费 [
高斯过程回归(GPR)是一种基于贝叶斯框架的非参数概率预测的机器学习方法,适用于高维度、小样本、非线性的复杂时间序列问题 [
采矿过程可概括为爆破、提升、通风、排水及压风。所涉及的碳排放设备包括提升机、风机、水泵及其附属设备等。根据调研结果可得采矿过程的碳排放设备的能耗主要来源为电机的电耗,因此要对具体的生产过程中电机的启停状况进行具体分析,进而得到碳排放量的影响因素。采矿简化流程如图1所示:
图1. 采矿简化流程图
通过对采矿流程的分析后,可以得出以下几点碳排放量的影响因素:
1) 爆破时长:爆破会使得设备的电机停转,减少电机耗电量,因而减少碳排放量,此过程也是采矿过程的特殊所在。
2) 工作时长:各个生产设备的工作时长的不同,使得电机的耗电量有所不同,会对碳排放量产生影响。
3) 产量:采掘的矿石总产量的大小意味着生产设备的电机电耗不同,从而对碳排放量产生影响。
4) 检修时长:检修期间会使生产设备停产,表明其耗电量减少而导致碳排放量有所下降。
5) 碳排放系数:本文定义碳排放系数为总耗电量与总产量的比值,即碳排放系数=总耗电量/总产量,表示生产单位矿石所消耗的电量。在总产量一定的情况下该系数越小,碳排放量越小。
由于考虑过多的影响因素会给后续预测的建模带来较大的困难,因此要对上述影响因素进行聚类分析。通过对影响因素的分析可得,工作时长,爆破时长以及检修时长均为同类因素,因此对此三种影响因素可以进行聚类分析。本文采取的是灰色聚类分析,其主要是用于同类因素的合并,从而简化复杂问题,删减不必要的因素 [
爆破时长 | 检修时长 | 工作时长 | |
---|---|---|---|
爆破时长 | 1 | 0.537 | 0.534 |
检修时长 | 1 | 0.9585 | |
工作时长 | 1 |
表1. 影响因素的关联矩阵表
由指标关联矩阵可以得出:根据具体要求选取临界值为0.7,可以将检修时长与工作时长归为一类,爆破时长归为另一类。
为了了解各影响因素对碳排放量的影响是否显著,本文采用灰色关联性分析来对各影响因素的显著性进行定量分析。由于数据样本的大小对灰色关联性分析结果影响不大,并且计算量相对较小,更具便捷性,其量化结果一般与定性结果一致 [
产量 | 碳排放系数 | 工作时长 | 爆破时长 | 检修时长 | |
---|---|---|---|---|---|
绝对关联度 | 0.53 | 0.5 | 0.5 | 0.5 | 0.5 |
相对关联度 | 0.719 | 0.907 | 0.8 | 0.616 | 0.766 |
综合关联度 | 0.7 | 0.867 | 0.769 | 0.605 | 0.74 |
表2. 相关性分析结果
综合关联度既包含了两者的相似程度与变化速率的相近度,能够更加全面的表示序列之间的联系。在临界值为0.7的条件下,结合影响因素的聚类结果及相关性分析的综合关联度大小可以得到三个主要影响因素:工作时长,碳排放系数,产量。将主要影响因素作为输入,以碳排放量作为输出建立改进的高斯过程回归预测模型。
对于一个给定的训练数据集D以及n个观测值, D = { ( x i , y i ) | i = 1 , ⋯ , n } ,其中 x i 是维数为D的输入向量,记为 x i ∈ R D , X = { x i | i = 1 , ⋯ , n } , 是目标输出即因变量,记为 y i ∈ R , y = { y i | i = 1 , ⋯ , n } ,问题可描述为根据给定集合D,预测出在新的输入 x i ∗ 下所得到的输出 y i ∗ ,即通过归纳法得到可以进行预测的函数关系f。高斯过程可以用均值函数和协方差函数表示 [
y = f ( x ) ~ G P ( m ( x ) , K ( x , x ′ ) ) (1)
其中
m ( x ) = E ( f ( x ) ) (2)
为均值函数
K ( x , x ′ ) = E [ { f ( x ) − m ( x ) } { f ( x ′ ) − m ( x ′ ) } ] = [ k ( x 1 , x 1 ) ⋯ k ( x 1 , x n ) ⋮ ⋱ ⋮ k ( x n , x 1 ) ⋯ k ( x n , x n ) ] (3)
为协方差函数。而在实际应用中需考虑高斯噪声 ε ~ G P ( 0 , σ n 2 ) , ε 相对于 f ( x ) 完全独立。由贝叶斯概率理论,在给定训练数据集 D = ( X , y ) 中建立起先验分布函数,因此可得加入噪声后的训练输出分布为
y = f ( X ) + ε ~ G P ( 0 , K ( X , X ) + σ n 2 I ) (4)
其中,I为 的单位矩阵, K ( X , X ) 为Gram矩阵,矩阵元素为 K i j = k ( x i , x j ) , i , j = 1 , ⋯ , n ,协差矩阵
cov ( X , X ) = K ( X , X ) + σ n 2 I (5)
训练数据集 D = ( X , y ) 和测试集 D * = ( X * , y * ) 的联合分布如下所示
[ y y * ] ~ G P ( 0 , [ K ( X , X ) + σ n 2 I K ( X , X * ) K ( X * , X ) K ( X * , X * ) ] ) (6)
此时可得到后验分布。根据贝叶斯概率公式可以得到高斯过程回归的预测方程为:
P ( y * | X * , X , y ) = G P ( y ′ ∗ , cov ( y * ) ) (7)
y ′ ∗ = K ( X * , X ) [ K ( X , X ) + σ n 2 I ] − 1 y (8)
cov ( y * ) = K ( X * , X * ) − K ( X * , X ) [ K ( X , X ) + σ n 2 I ] − 1 K ( X , X * ) (9)
其中 y ′ ∗ 为预测方程的均值,即为高斯过程回归的输出预测值, cov ( y * ) 为高斯过程回归的方差。由于平方指数(SE)函数的强光滑性与电机对象的拟合度并不高,相较之下M5/2函数的光滑性在以电机为研究对象的物理过程建模中更具有现实意义,因而选用M5/2为协方差函数,其表达式为
K M5/2 = θ ( 1 + 5 r l + 5 r 2 3 l 2 ) exp ( − 5 r l ) (10)
其边缘似然函数可由先验分布表示为
P ( y | X , θ ) = ∫ P ( y | f , X , θ ) P ( f | X , θ ) d f (11)
其中 θ = ( θ 1 ⋯ θ m ) 为超参数集合。先验分布取对数后可得
log P ( y | X , θ ) = − 1 2 y T ( K + σ n 2 I ) − 1 y − 1 2 log | K + σ n 2 I | − n 2 log 2 π (12)
对式(12)求偏导可得
d d θ j log P ( y | X , θ ) = 1 2 y T K − 1 d K d θ j K − 1 y − 1 2 t r ( K − 1 d K d θ j ) (13)
j = 1 , ⋯ , m ,其中tr表示矩阵对角线元素之和。
非支配排序遗传算法(NSGA)是在传统的遗传算法上演变而来的,主要是在选择之前对种群进行了分层,其分层的依据为个体之间的支配关系。
对于极大化目标优化问题,f(X)为目标函数,X,X'均属于解集U,若X支配X' [
带精英策略的非支配排序遗传算法(NSGAII)是一种以Pareto最优为基准的遗传算法 [
1) 随机产生初始种群P0,大小为M,计算目标函数值并按照支配定义对于P0中的每一个个体进行非支配排序分层得到P1。
2) 对非支配排序分层后的每层种群个体进行拥挤度计算。
3) 通过选择、交叉、变异等基本遗传算法步骤后得到子代S1,大小为M。
4) 将第i代产生的Si与Pi组合为Ai,大小为2M。此时对组合集Ai进行非支配排序并计算拥挤度。将排序后的第一层子集即父代与子代中最好的个体优先放入Pi + 1中,若第一层子集大小小于M,则将下一层子集向Pi + 1中充填,当子集大小大于M时,则再依据拥挤度大小选择较不拥挤即id大的个体充填,直到Pi + 1大小为M停止。
5) 得到Pi + 1后重复上述步骤,直到满足终止条件后结束。NSGAII的流程示意图如图2所示 [
图2. NSGAII 的流程示意图
对于高斯过程回归模型,协方差函数的超参数将直接影响模型的精度。因此在确定了协方差函数的表达式后,需要对方程中的超参数进行优化确定,本文采用NSGAII进行参数的优化确定,算法的具体流程如下:
1) 对样本数据初始化处理,即将所采集的数据分为两部分,一部分为训练集 D t r a i n = ( X , y ) ,另一部分为测试集 D t e s t = ( X * , y * ) 。
2) 根据高斯过程回归的理论知识及已确定的协方差函数M5/2,用训练集 D t r a i n 初步构建相应的预测方程。
3) 预测方程的超参数优化确定,根据目标函数式(12)执行NSGAII算法流程。
4) 将测试集 D t e s t 中 X * 作为输入,输出值 y ′ * ,将每种预测结果与测试值 y * 做比较。具体的算法流程图如下所示:
本文采集了某大型铅锌矿山企业的采矿部门近32个月的数据,通过影响因素分析后整理出32组样本数据如下表所示,并将前26组数据作为训练集,后6组数据作为测试集对模型进行验证。原始数据如表3所示。
根据表中数据,将产量、碳排放系数与工作时长作为模型的输入,由于在实际运用中对于碳排放量的直接测量相对困难,所以采用耗电量与碳排放量的换算公式来计算得到实际的碳排放量数据。在本实验中将耗电量作为采集的原始数据,将换算公式计算后得到的碳排放量作为模型的输出,并与测试值作比较得到误差大小。为了验证该模型的可靠性,本文采用共轭梯度法、粒子群算法及遗传算法三种常用的超参数优化确定方法进行建模,其预测结果如图4所示。
根据表4与图4进行分析可得,相较于其他的超参数优化确定方法,带精英策略的非支配排序遗传算法(NSGAII)有着明显的优势,基于NSGAII的高斯过程回归模型能够将预测误差降低到6.3%,能够获得较为理想的预测结果。
为了进一步验证改进的高斯过程回归预测模型的可靠性,本文将选取灰色预测模型GM(1, 1),支持向量机SVM以及人工神经网络三种常用的预测模型来进行实验对比。其对比实验结果如表5所示。
图3. NSGAII -GPR预测模型的流程示意图
编号 | 产量/t | 碳排放系数 | 工作时长/h | 耗电量/kw·h | 碳排放量/t |
---|---|---|---|---|---|
1 | 99,633.5 | 40.85 | 385 | 4,069,839.33 | 3,646,169.05 |
2 | 56,320.9 | 48.34 | 319 | 2,867,615.21 | 2,569,096.47 |
3 | 125,086.8 | 35.69 | 374 | 4,464,474.37 | 3,999,722.59 |
4 | 113,524.3 | 38.07 | 377 | 4,321,646.98 | 3,871,763.53 |
5 | 126,505.6 | 35.31 | 385 | 4,466,817.10 | 4,001,821.44 |
6 | 114,023.5 | 37.92 | 317 | 4,323,692.86 | 3,873,596.43 |
7 | 126,043.6 | 35.43 | 366 | 4,466,052.38 | 4,001,136.33 |
8 | 123,651.4 | 36.07 | 383 | 4,459,662.26 | 3,995,411.42 |
9 | 112,839.1 | 38.28 | 381 | 4,319,433.74 | 3,869,780.69 |
10 | 125,985.9 | 35.44 | 325 | 4,465,132.95 | 4,000,312.61 |
11 | 112,702.7 | 38.33 | 366 | 4,319,284.50 | 3,869,646.99 |
12 | 125,456.2 | 35.60 | 298 | 4,465,742.41 | 4,000,858.63 |
13 | 125,042.9 | 35.70 | 388 | 4,464,467.03 | 3,999,716.01 |
14 | 55,104.1 | 49.63 | 330 | 2,734,810.27 | 2,450,116.52 |
15 | 126,521.3 | 35.31 | 374 | 4,467,126.15 | 4,002,098.31 |
16 | 109,953.2 | 39.03 | 365 | 4,291,272.30 | 3,844,550.85 |
17 | 99,163.9 | 40.99 | 376 | 4,065,091.65 | 3,641,915.61 |
18 | 106,253.8 | 39.29 | 330 | 4,174,293.40 | 3,739,749.46 |
19 | 117,808.8 | 37.21 | 373 | 4,383,375.43 | 3,927,066.05 |
20 | 178,067.2 | 29.99 | 370 | 5,339,357.42 | 4,783,530.31 |
21 | 180,651.2 | 30.16 | 369 | 5,448,540.14 | 4,881,347.11 |
22 | 199,909.6 | 30.65 | 306 | 6,127,207.67 | 5,489,365.35 |
23 | 200,068.0 | 30.97 | 376 | 6,196,151.12 | 5,551,131.78 |
24 | 216,460.0 | 30.11 | 270 | 6,517,666.52 | 5,839,177.44 |
25 | 240,493.6 | 28.83 | 383 | 6,932,691.58 | 6,210,998.38 |
26 | 189,359.2 | 30.35 | 332 | 5,747,263.78 | 5,148,973.62 |
27 | 247,752.0 | 28.00 | 374 | 6,936,656.74 | 6,214,550.78 |
28 | 119,358.9 | 38.21 | 350 | 4,320,015.09 | 3,870,301.52 |
29 | 124,065.1 | 35.96 | 382 | 4,461,076.81 | 3,996,678.71 |
30 | 113,075.2 | 38.21 | 303 | 4,320,046.84 | 3,870,329.96 |
31 | 124,959.4 | 35.71 | 374 | 4,462,480.31 | 3,997,936.11 |
32 | 45,854.3 | 32.22 | 205 | 1,477,280.22 | 1,323,495.35 |
表3. 采矿过程原始数据
图4. 不同超参数优化确定方法的实验结果
预测编号 | 27 | 28 | 29 | 30 | 31 | 32 | 均误差 | |
---|---|---|---|---|---|---|---|---|
实际值/t | 6,214,550.78 | 3,870,301.52 | 3,996,678.71 | 3,870,329.96 | 3,997,936.11 | 1,323,495.35 | ||
共轭梯度 | 预测值/t | 3,974,666.99 | 3,696,996.74 | 3,818,352.32 | 3,123,215.19 | 3,911,666.25 | 1,347,706.53 | 0.114 |
绝对误差 | 2,239,883.78 | 173,304.78 | 178,326.39 | 747,114.77 | 86,269.86 | 24,211.18 | ||
相对误差 | 0.36 | 0.045 | 0.045 | 0.19 | 0.022 | 0.018 | ||
粒子群 | 预测值/t | 6,372,013.84 | 3,991,484.66 | 3,996,111.14 | 3,816,832.021 | 3,997,828.50 | 2,041,123.88 | 0.102 |
绝对误差 | 157,463.07 | 121,183.14 | 567.57 | 53,497.95 | 107.61 | 717,628.54 | ||
相对误差 | 0.025 | 0.031 | 0.00014 | 0.014 | 0.0000027 | 0.54 | ||
遗传算法 | 预测值/t | 6,240,055.47 | 4,058,554.98 | 3,996,991.43 | 3,878,358.85 | 3,997,962.30 | 1,848,694.93 | 0.075 |
绝对误差 | 25,504.69 | 188,253.46 | 312.72 | 8028.89 | 26.19 | 525,199.59 | ||
相对误差 | 0.0041 | 0.049 | 0.000078 | 0.0021 | 0.0000066 | 0.40 | ||
带精英策略的非支配排序遗传算法(NSGAII) | 预测值/t | 6,251,313.89 | 4,064,342.57 | 3,997,010.77 | 3,879,803.68 | 3,997,979.93 | 1,464,708.45 | 0.063 |
绝对误差 | 36,763.12 | 194,041.052 | 332.056 | 9473.72 | 43.82 | 141,213.10 | ||
相对误差 | 0.0059 | 0.050 | 0.0000083 | 0.0024 | 0.000011 | 0.11 |
表4.不同超参数优化确定方法的实验结果
图5. 不同预测方法的实验结果
分析上述实验结果可知,用NSGAII-GPR模型进行预测大型铅锌矿山企业的采矿过程碳排放量的均误差为6.3%,相较于其他常用的预测模型有着明显的优势,其预测精度更高,误差更小。因此相较于其他常规模型,该模型更加可靠,模型性能更好。
预测编号 | 27 | 28 | 29 | 30 | 31 | 32 | 均误差 | |
---|---|---|---|---|---|---|---|---|
实际值/t | 6,214,550.78 | 3,870,301.52 | 3,996,678.71 | 3,870,329.96 | 3,997,936.11 | 1,323,495.35 | ||
NSGAII -GPR | 预测值/t | 6,251,313.89 | 4,064,342.571 | 3,997,010.766 | 3,879,803.683 | 3,997,979.927 | 1,464,708.447 | 0.063 |
绝对误差 | 36,763.11547 | 194,041.0527 | 332.0560011 | 9473.71931 | 43.81964796 | 141,213.1009 | ||
相对误差 | 0.005915651 | 0.050135901 | 0.00000831 | 0.002447781 | 0.000011 | 0.106697089 | ||
GM(1,1) | 预测值/t | 4,423,160.01 | 4,729,416.46 | 4,748,834.65 | 4,797,843.14 | 4,817,569.12 | 5,163,109.27 | 0.604 |
绝对误差 | 1,791,406.34 | 859,114.95 | 752,155.94 | 927,513.18 | 819,633.01 | 3,839,613.92 | ||
相对误差 | 0.26 | 0.20 | 0.17 | 0.22 | 0.18 | 2.60 | ||
SVM | 预测值/t | 6,482,462.66 | 3,874,287.05 | 4,029,607.41 | 3,790,629.42 | 4,036,552.51 | 4,232,326.82 | 0.380 |
绝对误差 | 267,911.89 | 3985.53 | 32,928.70 | 79,700.55 | 38,616.40 | 2,908,831.48 | ||
相对误差 | 0.043 | 0.0010 | 0.0082 | 0.021 | 0.0098 | 2.20 | ||
人工神经网络 | 预测值/t | 5,314,739.82 | 3,777,524.64 | 4,123,721.17 | 3,509,440.10 | 4,162,545.59 | 2,025,618.80 | 0.144 |
绝对误差 | 899,810.95 | 92,776.88 | 127,042.46 | 360,889.86 | 164,609.48 | 702,123.45 | ||
相对误差 | 0.15 | 0.024 | 0.032 | 0.093 | 0.041 | 0.53 |
表5. 不同预测方法的实验结果
本文采用了高斯过程回归模型,并在此基础上对超参数的优化确定进行了改进,进而得到NSGAII-GPR模型,从实验结果来看,NSGAII-GPR模型有着较高的预测精度,能够很好地预测采矿过程的碳排放量。为企业进行碳排放量的计划和管理提供了有效的帮助,能更好的进行企业规划及生产设备调度与工况选择,带来更高的经济效益,积极响应国家政策,达到节能减排的目的。
石达顺,唐朝晖,王 阳,牛亚辉. NGSAII-GPR模型在碳排放短期预测中的应用The Application of NGSA II-GPR Model in Short-Term Carbon Emission Forecasting[J]. 计算机科学与应用, 2018, 08(11): 1762-1772. https://doi.org/10.12677/CSA.2018.811195
https://doi.org/10.1109/TEM.2012.2211105
https://doi.org/10.1016/j.energy.2016.09.017
https://doi.org/10.1016/j.envsci.2015.07.015
https://doi.org/10.1016/j.ymssp.2017.11.021
https://doi.org/10.1016/j.jclepro.2017.05.102
https://doi.org/10.1016/j.sepro.2011.11.008
https://doi.org/10.1016/j.eswa.2015.07.066
https://doi.org/10.1016/j.simpat.2017.09.006
https://doi.org/10.1016/j.datak.2016.12.002
https://doi.org/10.1016/j.rcim.2017.07.003