由于电商订单销售数据中全品类商品的种类繁多、分类多层化,且数据集还存在时序长度分布不均、地区差异、定性变量及非线性特征变量的处理等问题,导致需求量的预测任务较困难。为了解决上述问题,本研究提出一种宽度学习集成框架,将机器学习中的Random Forest、GBDT、XGBoost和LightGBM与宽度学习模型进行随机融合,并分别进行验证,对比模型效果。经实证分析结果表明:LightGBM-BLS模型具有最优的预测性能和计算性能,它在保持LightGBM模型计算优势的同时,大幅度地提升了模型本身的预测精度,使拟合优度达到0.99,评价指标RMSE、MSE降低90%以上,MAE降低85%以上。 Due to the wide variety of full-category commodities in e-commerce order sales data, multi-layered categorization, and the dataset also has the problems of uneven distribution of time-series lengths, regional differences, and the treatment of qualitative variables and non-linear feature variables, which leads to a more difficult task of demand prediction. To solve the above problems, this study proposes a breadth learning integration framework, which stochastically fuses Random Forest, GBDT, XGBoost and LightGBM in machine learning with the breadth learning model, and validates and compares the model effects respectively. Empirical analysis results show that the LightGBM-BLS model has optimal prediction performance and computational performance, which maintains the computational advantages of the LightGBM model while substantially improving the prediction accuracy of the model itself, so that the goodness of fit reaches 0.99, and the evaluation indexes of RMSE and MSE are reduced by more than 90%, and MAE is reduced by more than 85%.
由于电商订单销售数据中全品类商品的种类繁多、分类多层化,且数据集还存在时序长度分布不均、地区差异、定性变量及非线性特征变量的处理等问题,导致需求量的预测任务较困难。为了解决上述问题,本研究提出一种宽度学习集成框架,将机器学习中的Random Forest、GBDT、XGBoost和LightGBM与宽度学习模型进行随机融合,并分别进行验证,对比模型效果。经实证分析结果表明:LightGBM-BLS模型具有最优的预测性能和计算性能,它在保持LightGBM模型计算优势的同时,大幅度地提升了模型本身的预测精度,使拟合优度达到0.99,评价指标RMSE、MSE降低90%以上,MAE降低85%以上。
需求量预测,特征工程,宽度学习(BLS),XGBoost,LightGBM
Shiyi Zeng1*, Liyun Su1,2, Qingxia He1, Yu Zhang1, Feng Zhao1, Tong Zhang1
1College of Science, Chongqing University of Technology, Chongqing
2Research Center for Spatiotemporal Big Data, Chongqing University of Technology, Chongqing
Received: Nov. 25th, 2023; accepted: Dec. 19th, 2023; published: Dec. 29th, 2023
Due to the wide variety of full-category commodities in e-commerce order sales data, multi-layered categorization, and the dataset also has the problems of uneven distribution of time-series lengths, regional differences, and the treatment of qualitative variables and non-linear feature variables, which leads to a more difficult task of demand prediction. To solve the above problems, this study proposes a breadth learning integration framework, which stochastically fuses Random Forest, GBDT, XGBoost and LightGBM in machine learning with the breadth learning model, and validates and compares the model effects respectively. Empirical analysis results show that the LightGBM-BLS model has optimal prediction performance and computational performance, which maintains the computational advantages of the LightGBM model while substantially improving the prediction accuracy of the model itself, so that the goodness of fit reaches 0.99, and the evaluation indexes of RMSE and MSE are reduced by more than 90%, and MAE is reduced by more than 85%.
Keywords:Demand Forecasting, Feature Engineering, Broad Learning System, XGBoost, LightGBM
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着大数据信息技术的高速发展,电商行业的销售模式也随之而转变,会应个人喜好、生活习惯、价格区间等各类因素的综合参考,来决定某件商品的销售策略、方式及价格。因此,各大销售平台开始注重商品销售量及需求量的准确预测问题,可利用人工智能的方法 [
同时,还有较多学者采用了机器学习或集成机器学习的方法实现商品销量的预测 [
在该基础上,本文即思考和探索是否能在保证高效计算速度的同时,实现模型预测性能的提升,并将此作为文章的主要任务。近年来,陈俊龙教授(2018) [
本研究的实证数据来源于第十一届泰迪杯B题中提供的企业面向经销商的出货数据,主要涵盖近60万条商品销售数据,其中数据集包含5个不同地区、8种商品大类、12种商品细类,近一千多种商品类别的销售情况数据。数据集的样本区间为2015年9月1日至2018年12月20日。
数据来源网站参考如下:https://www.tipdm.org/。
特征工程(Feature Engineering)是选择、操作和将原始数据转换为可用于监督学习变量特征的过程,以便于将所提取的变量特征应用到构建的预测模型中,达到提升模型预测对未知数据的准确度。简而言之,即通过特征工程的处理方式提取出自变量X中存在的显著影响特征和信息。
本研究中即应用特征工程提取了商品销售数据的节假日信息、促销日信息、月末月初等时序信息,继而还对数据进行了去重处理和商品价格信息的分箱处理,以平均价格( X ¯ p r i c e )压缩了价格特征,即:
X ¯ p r i c e = ∑ i n X i T , c o d e n (1)
其中T为日期;code为同个商品的编码。
由于商品的大类和细类数据属于离散型数据,为了使机器学习模型能更好的识别到该类变量的特征信息,还采用了特殊的编码处理方式。最后,考虑到商品的历史订单需求量数据与当期需求量数据间的相关性,进而提取了该变量的滞后特征和趋势特征。
1) 均值编码:
当数据集中存在定性特征时,由于定性特征表示某个数据属于一个特定的类别,其数据均表现为类别的离散型数据,为了充分提取分类变量的信息量,均值编码通常的处理方式即把概率替换成均值,y为目标变量,x为定性特征变量:
p ( y , x i ) = ( 1 − λ ( n i ) ) ∑ x = x i y n i + λ ( n i ) ∑ y N (2)
其中: ∑ x = x i y n i 表示 x = x i 对应的y均值, ∑ y N 是整个训练集上y的均值。
2) 独热编码:
独热编码又称哑变量,是将离散特征的取值扩展到欧式空间上,且离散特征的某个取值分别对应欧式空间上的某个点,根据特征之间的距离进行编码,且编码后的特征,每一个维度的特征都可以看成连续的特征,能实现从离散到连续的转换。且每列变量被拆开为连续性的均标注为0或1。
宽度学习(Broad Learning System)系统是一种有效且高效的增量学习系统,与深度学习不同,它是一种不依赖于深度结构的神经网络结构。实质是一种随机向量函数链接神经网络,但与CNN不同,该网络并不通过反向传递改变特征提取器的核,而是通过求伪逆计算每个特征节点和增加节点的权重。
首先,需要构建输入数据到特征节点的映射,其映射的特征节点即实现了高效特征提取的能力。在特征学习阶段,原始输入数据通过特征映射节点随机转换为特征,然后将其连接到增强节点作为输入。
假定存在m组特征节点,且每个映射节点具有q个特征,假设输入数据为 X ∈ R n × d ,其中 X = [ x 1 , x 2 , ⋯ , x n ] T 为输入样本数,也即嵌入维数;则第一映射特征节点的映射特征公式如下:
D i = ϕ ( X W e i + β e i ) , i = 1 , 2 , ⋯ , m (3)
其中: W e i 表示随机生成的权重, β e i 为第i组映射节点; ϕ ( ⋅ ) 表示输入数据的激活函数。
级联的映射特征 D = [ D 1 , D 2 , ⋯ , D m ] 和D会被进一步连接到增强节点。假设存在增强节点,则第j组的增强信息可通过如下的公式得到:
E j = ξ ( D W h j + β h j ) , j = 1 , 2 , ⋯ , d (4)
其中, W h j 和 β h j 分别表示随机产生的权重和偏差,且 ξ ( ⋅ ) 是激活函数。
则最终得到增强特征的输入即:
H = [ D 1 , D 2 , ⋯ , D m | P 1 , P 2 , ⋯ , P d ] = [ D | P ] (5)
随机森林(Random Forest, RF)属于Bagging算法之一,可通过组合多个弱分类器,最终结果以投票或取均值的方式,使整体模型的结果具有较高的精确度和泛化性能。且采用的CART决策树是基于基尼系数来选择特征的。
对未知样本x的预测可通过对所有单个回归树的预测取平均来实现:
f ^ = 1 B ∑ b = 1 B f b ( x ′ ) (6)
GBDT和XGBoost模型均是属于集成学习中Boosting提升算法,其中GBDT主要是借助梯度下降的优化方法,且使用损失函数的负梯度,没有加入正则化项。而XGBoost则是基于二阶泰勒展开优化损失函数,在GBDT的基础上引入了正则化项 Ω ( f k ) ,提高模型的计算精度,并将其目标函数变为:
L ( ϕ ) = ∑ i l ( y i , y ^ i ) + ∑ k Ω ( f k ) (7)
其中 L ( ϕ ) 是线性空间上的表达;k表示第k棵树, y ^ i 即第i个样本 x i 的预测值。
LightGBM (Light Gradient Boosting Machine)是一种开源的分布式高性能梯度提升,原理和GBDT类似,但具有更高效的训练,更低的内存使用以及更高的结果准确性等特性。相比较于GBDT和XGboost算法,LightGBM使用的是直方图算法,占用的内存更低,且数据分割的复杂度也更低,能够在不损害准确率的条件下,加快GBDT模型的训练速度。其思想主要将连续的浮点特征离散成K个离散值,并构造宽度为K的Histogram,通过遍历训练数据,统计每个离散值在直方图中的累计统计量。
综合对比以上梯度提升树模型各自的技术特点,发现随机森林(RF)模型具有对数据质量较低,且基学习器出错不会对整体结果造成较大影响的优势;GBDT则将所有决策树的结果进行求和得到最终结果,在数据质量较好的情况下具有更好的精度;XGBoost模型引入正则化项后,在GBDT模型的基础上缓解了过拟合的情况,并减少了运行时间;LightGBM与XGBoost模型类似,保留了原本XGBoost的优势,并增进了可直接处理连续或离散特征的特点,在保证精度的同时再次提升了模型的计算速度。
由于机器学习模型多从数据指标自身提取特征信息,来实现模型的预测,未充分考虑到特征变量间的非线性特征信息,继而导致降低了模型的预测精度。然而宽度学习算法(BLS)恰好可以解决这类问题,可充分提取特征变量间存在的非线性关系。于是本研究提出了集成宽度学习算法的模型框架,即分别将随机森林、GBDT、XGBoost和LightGBM模型与宽度学习(BLS)算法进行集成融合,其集成算法的基本实现步骤如下:
Step1:经特征工程处理后得到的指标变量 X i ( i = 1 , 2 , ⋯ , n ) 和目标变量 Y d e m ,首先将指标变量 X i ( i = 1 , 2 , ⋯ , n ) 分别输入Random Forest(随机森林)、GBDT、XGBoost和LightGBM模型中,经模型训练后得到不同区域商品订单需求量的预测值 o r d _ Y p r e m (m表示选取的预测模型)。
Step2:其次,将Step1中得到的四个模型预测值,根据区域的不同依次纳入Step1中的指标变量 X i ( i = 1 , 2 , ⋯ , n ) 中,重新进行特征融合后,得到新的指标数据集: X j m ( j = 1 , 2 , ⋯ , n + 1 ) ,即分别添加一维不同区域对应的 o r d _ Y p r e m 后得到的 X j m ( j = 1 , 2 , ⋯ , n + 1 ) ,其中Step1所提到的四种预测模型,将这些新的 X j m ( j = 1 , 2 , ⋯ , n + 1 ) 依次作为新的输入特征。
Step3:最后,采用宽度学习(BLS)的方法,分别对新的特征数据集 X j m ( j = 1 , 2 , ⋯ , n + 1 ) 实现商品需求量的预测任务,得到由RF-BLS、GBDT-BLS、XGB-BLS、LGBM-BLS这四类集成算法得出的最终预测结果 Y ^ i ( i = 1 , 2 , ⋯ , n − 1 , n ) 。具体流程可参考如下图1和图2,其中图2为图1中宽度学习算法(BLS)的基本框架图,作为图1的补充。
图1. 集成宽度学习算法框架图
图2. 宽度学习算法框架图
为了提升模型的准确度,本研究构建了特征工程,来提取原始数据中对商品需求量的直接影响变量和潜在影响变量。原始实证数据涵盖的变量信息有:订单交易时间、商品区域代码、商品编码、商品大类编码、商品细类编码、销售方式、产品单价及订单需求量。目标预测变量即为订单需求量(ord_qty),考虑到原始数据集本身存在时间信息,特征工程的第一步即提取了原始数据集中潜在的时间信息,如:是否节假日、是否工作日、是否月中月末、是否促销日等信息,其中促销日和节假日信息对商品的需求量存在显著的影响。
其次,观测整个数据各类商品的数据分布情况,发现共计有1294种商品,但每种商品对应的订单数据量并不相同,且每次订单数据产生的时序信息也并不均匀、时间段并不连续。某类商品还存在同一天具有多条订单信息的情况,为了充分提取商品的价格信息,本研究考虑将该类同天存在多条订单信息的价格数据进行压缩处理,采用均值处理日期相同、且商品相同的价格数据,使同天内,同类商品的价格数据信息仅保留其对应日期的均价;然而,由于数据集中各类商品的价格信息波动范围较大,其原因可能是由于商品种类的不同,而导致价格波动范围也存在较大差异,为了更好的提取因类别造成价格差异的特征信息,添加了平均价格分箱特征,来获取商品间的差异性。除此外,还根据商品线上线下的销售方式,添加了不同商品的线上线下销售比这一特征信息。其中,各类商品的时序分布情况如下图3所示。
根据不同商品时序图的分布情况,发现各类商品对应的时序长度存在较明显的差异,数量较多的时序长度基本分布在[0, 50]天,而超过100天的时序长度较少,且分布不均匀,同类商品中还存在时序信息不连续的情况。故针对该类时序数据分布不均,且长度较短的数据集,若采用时间序列模型预测商品需求量并不合适,因为数据本身体现的时序信息不能充分的识别到商品需求量信息随时间变化的规律,反而可能造成错误的信息干扰,从而影响模型的预测准确度。据此因素,且结合考虑数据集中存在定性特征,本研究则选择了随机森林、GBDT、XGBoost类型的树模型及宽度学习模型来识别指标变量特征,预测订单需求量。
最后,因考虑到商品的历史需求量数据对当期订单需求量数据的影响,添加了需求量变量的1, 2, 3, ∙∙∙, 48, 60阶的滞后项特征,获取历史需求量的波动信息;还添加了商品需求量的移动平均特征,获取相邻日期间需求量数据间存在的影响;需求量数据的变化趋势特征也同样属于目标变量的直接影响变量,故特征工程中也添加了该变量的趋势特征。由于商品大类和细类等分类数据,属于定性数据、均是离散分布的,于是针对类别数据分别采用了均值编码和独热编码的特殊编码处理方式。
最终,经过特征工程处理后,得到59维输入特征变量。
图3. 全类商品的时序长度统计图
为了衡量模型的预测性能,本研究选择了均方误差(Mean Square Error, MSE)、平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Squared Error, RMSE)、平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)作为评价指标,并结合模型计算耗时(Time)来综合评定模型效果的优劣。各模型的评价指标计算公式如下:
MSE = 1 n ∑ i = 1 n ( Y i − Y ^ i ) 2 (8)
MAE = 1 n ∑ i = 1 n | y i − y ^ i | (9)
RMSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 (10)
MAPE = 100 % n ∑ i = 1 n | y i − y ^ i | y i (11)
综合文献分析,发现电商订单需求量预测任务中,较多学者采用随机森林(Random Forest)、梯度提升决策树(GBDT)、XGBoost和LightGBM这四种机器学习模型 [
因原始数据集中,商品存在区域差异,为了更准确的预测出全品类商品的订单需求量,将训练集数据按区域拆开,分别对各区域(101、102、103、105区域)的订单需求量进行预测。其中,训练集数据的时间维度为2015年9月1日~2018年12月12日,共113,332条商品订单数据,测试集数据时间维度为:2018年12月13日~2018年12月20日,共计12,593条不同商品的订单数据。经实证结果比较发现,四种机器学习模型中Random Forest 和XGBoost模型是效果最好的,且各模型在103地区均表现最优,则此处仅列举了103地区各模型的评估结果:
区域 | 模型 | MSE | MAE | RMSE | MAPE | Time(s) |
---|---|---|---|---|---|---|
103 | Random Forest | 4.0595 | 0.4949 | 2.0148 | 0.0302 | 184.1345 |
GBDT | 40.4232 | 2.3192 | 6.3579 | 0.2605 | 40.0599 | |
XGBoost | 12.2152 | 0.6361 | 3.4950 | 0.0412 | 74.4189 | |
LightGBM | 348.4430 | 8.9274 | 18.6666 | 0.8562 | 1.4590 |
表1. 103地区——机器学习模型的评估结果
综合比较表1中四种模型的结果发现,机器学习模型预测精度的排名依次为:Random Forest > XGBoost > GBDT > LightGBM,计算速度的排名依次为:LightGBM > GBDT > XGBoost > Random Forest。很明显LightGBM模型在本研究数据集上表现出了较差的预测精度,仅在计算速度占据了较强的优势,但通常情况下LightGBM较XGBoost模型相比具有更优越的准确性和计算速度,而在本研究的数据集上,Random Forest和XGBoost却表现出了更优越的预测性能,其原因可能是由于数据特性造成的,机器学习模型的预测效果均较依赖于特征工程的处理,同时XGBoost模型中提供了较多的正则化选项,有助于控制模型的复杂性。即GBDT、XGBoost和LightGBM模型对数据质量的要求较高,更适用于数据特征信息丰富且存在显著关系的数据集,而Random Forest对数据质量的要求相对较低。
于是考虑到电商订单预测问题的实用性,需实现产品订单需求量的高效预测。本研究考虑探寻既能保持LightGBM模型计算速度的优势,又能高效提升LightGBM模型预测精度的方法。因宽度学习模型具有可自动从原始数据中学习有用的特征,不依赖于特征工程的处理;且模型中添加了L1和L2正则化,有助于限制模型的参数大小,控制其复杂性和防止过拟合等优点。且这些优点均是LightGBM模型所欠缺的,于是本研究就宽度学习和LightGBM的互补性,提出了一种融合宽度学习的集成算法框架,并通过实证分析的方式探究了机器学习模型和宽度学习模型的融合方式,是否能帮助模型提升其预测精度和计算速度,达到更好的预测性能,尤其是LightGBM模型是否能达到预期目标的效果,以下3.3.2小节对此展开的具体分析。
根据2.5小节提出了集成宽度学习算法结果,分别采用RF-BLS、GBDT-BLS、XGB-BLS、LGBM-BLS这四种集成算法对同样的数据集进行实证分析,经模型评估结果的对比发现该四种模型在103地区的表现最优,105地区表现最差,于是为对比集成算法模型和机器学习算法的预测能力,仅需在预测能力表现最差和最优的地区均呈现出集成模型更优的预测性能即可,以下即为集成宽度学习算法和机器学习算法分别在103和105地区的模型评估结果:
区域 | 模型 | MSE | MAE | RMSE | MAPE | Time(s) |
---|---|---|---|---|---|---|
103 | Random Forest | 4.0595 | 0.4949 | 2.0148 | 0.0302 | 184.1345 |
RF-BLS | 21.3300 | 1.7109 | 4.6184 | 0.0909 | 184.5864 | |
GBDT | 40.4232 | 2.3192 | 6.3579 | 0.2605 | 40.0599 | |
GBDT-BLS | 27.9073 | 4.0104 | 5.2827 | 0.1601 | 40.5242 | |
XGBoost | 12.2152 | 0.6361 | 3.4950 | 0.0412 | 74.4189 | |
XGB-BLS | 6.8904 | 1.9452 | 2.6250 | 0.0949 | 74.8711 | |
LightGBM | 348.4430 | 8.9274 | 18.6666 | 0.8562 | 1.4590 | |
LGBM-BLS | 0.3522↓ | 0.4893↓ | 0.5935↓ | 0.0319↓ | 1.9157 (+0.4567) | |
105 | Random Forest | 405.2788 | 0.9463 | 20.1315 | 0.0355 | 269.2298 |
RF-BLS | 4.1200 | 0.7779 | 2.0298 | 0.0480 | 269.8824 | |
GBDT | 474.2444 | 2.7645 | 21.7772 | 0.2458 | 60.0523 | |
GBDT-BLS | 21.5067 | 2.3980 | 4.6375 | 0.1009 | 60.7133 | |
XGBoost | 217.4326 | 1.0921 | 14.7456 | 0.0477 | 101.1275 | |
XGB-BLS | 7.3558 | 1.5575 | 2.7122 | 0.0875 | 101.7807 | |
LightGBM | 3248.2117 | 8.5242 | 56.9931 | 0.5298 | 5.0106 | |
LGBM-BLS | 1.2046↓ | 1.0929↓ | 1.0976↓ | 0.0738↓ | 5.6607 (+0.6501) |
表2. 集成算法模型及机器学习模型的评估结果
*注:RF为Random Forest缩写;GBDT为梯度提升决策树的缩写;XGB为XGBoost缩写;LGBM为LightGBM缩写;BLS为宽度学习(Broad Learning System)的缩写;(+0.4567)和(+0.6501)分别为LGBM-BLS模型与LightGBM模型的计算速度差。
根据表2中模型的评估结果可观测到,融合宽度学习的集成算法模型与原始机器学习的模型预测精度相比,基本均有所提升,使改进后的集成算法模型均在预测精度上得到了较大幅度的提升,且计算速度基本保持不变,其时间误差控制在了1秒以内。此外,交叉比较四种传统机器学习模型和四种集成算法模型的效果,容易发现LGBM-BLS模型的预测性能最优,它不仅表现了模型最优的预测准确性,同时也兼顾了优越的计算速度,很好地融合了BLS和LigntGBM模型本身的优点,与LigntGBM模型相比其计算时间仅相差0.5秒左右,与其他三种集成算法相比,具备更强的预测能力,达到了订单需求量预测任务的预期目标。且表明文章所提出的该四类模型适用于样本量及特征量丰富、存在分类特征信息的数据集,例如:电商数据分析、股票数据分析以及能源相关数据分析等。
为了便于更直观地观测到集成宽度学习算法预测精度的大幅提升,在表2的基础上选取了RMSE指标,绘制了传统机器学习模型与集成宽度学习算法间RMSE指标对比图,并计算了两类模型对应RMSE指标的降幅(见图4):
图4. 模型间RMSE指标对比图
图4中ML表示机器学习模型(Machine Learning),ML-BLS表示与宽度学习融合的集成算法;各柱子上方的数值标签即为集成算法与传统机器学习方法对应的RMSE误差值。对比ML和ML-BLS,显然LGBM-BLS是降幅最大的,在各地区该模型的均方根误差(RMSE)均下降了90%以上,说明LGBM-BLS的预测精度最优。进而,本研究继续将LGBM-BLS模型在测试集上的预测效果进行了可视化,得出了预测值与真实值间高度吻合的结论(见图5):
图5. LGBM-BLS模型的测试集预测效果图
最后,对集成宽度学习算法和机器学习模型的计算性能进行了可视化,以下为ML和ML-BLS分别在101、102、103和105地区测试集上的计算时间对比图。
图6中各柱子上的数值标签为集成宽度学习算法与对应的传统机器学习模型在测试集上的计算时长,从该数值的大小能直观观测到,集成算法均继续保持了ML模型原有的计算速度,并未因为算法的融合而出现更高的时间复杂度;同时,更容易发现LGBM-BLS模型的计算优势远超于其他模型。
图6. 各模型计算时长对比图(测试集)
不同的模型均存在各自的优缺点,随机森林(Random Forest)、GBDT、XGBoost和LightGBM模型中,LightGBM具有较明显的计算速度优势;但是,若要同时兼顾预测模型的精度和计算速度,显然仅靠LightGBM模型的效果是不够的,且当采用LightGBM处理大规模数据集时还容易产生过拟合的情况。然而LightGBM-BLS的融合却很好地解决了该问题。由于正则化项的存在,有效地防止了模型的过拟合,且能避免模型精度容易受到特征工程效果的影响,因为宽度学习模型能自动从原始数据中学习有用的特征,降低了模型对特征工程的依赖度,使模型能最大信息化利用原始数据集的丰富特征,实现预测任务。
因此,本研究结合宽度学习模型的优势,提出了宽度学习模型与机器学习模型集成的算法框架,均在一定程度上提升了RF、GBDT、XGBoost和LightGBM模型的预测精度。尤其是LightGBM-BLS模型很好的达到了预期为实现高效计算且高精度预测的目标,为销售行业的订单分析及预测问题,提供了较好的思路方法,具有丰富的参考价值和实际意义。
2023年重庆市教育委员会人文社会科学研究重点项目(23SKGH251)和2022年重庆理工大学研究生教育高质量发展行动计划资助成果(gzlcx20223313和gzlcx20223314)。
曾诗懿,苏理云,何青霞,张 宇,赵 锋,张 彤. 融合集成算法与宽度学习的商品需求量预测Fusing Integrated Algorithms with Broad Learning System for Commodity Demand Forecasting[J]. 应用数学进展, 2023, 12(12): 5254-5266. https://doi.org/10.12677/AAM.2023.1212516
https://doi.org/10.1155/2021/2179692
https://doi.org/10.1109/CCISP51026.2020.9273506
https://doi.org/10.1109/ICPC2T48082.2020.9071463
https://doi.org/10.1016/j.jjimei.2022.100058
https://doi.org/10.13546/j.cnki.tjyjc.2018.22.042
https://doi.org/10.1016/j.ins.2022.04.058
https://doi.org/10.1109/TPWRS.2020.3028133
https://doi.org/10.1109/TNNLS.2017.2716952
https://doi.org/10.1016/j.asoc.2022.109831