1. 引言
近年来,山东省临沂市的物流行业蓬勃发展,已经形成了高度集约、规模宏大、智能化水平领先的物流产业。物流产业在连接供应链上下游、促进生产和消费、促进城乡间交流的纽带作用日益凸显。临沂市拥有数量众多的百万级经营主体,人口规模达千万级,商贸物流总量突破万亿级。这一系列发展不断释放着临沂得天独厚的地理区位优势和无可匹敌的市场竞争优势。物流网络作为现代电商业务的重要支撑,其高效、稳定的运作对于整个电商生态至关重要。
然而,电商物流网络面临着诸多挑战。节假日和大型促销活动,如“双十一”、“618”等,往往会导致电商用户的下单量出现显著波动。这种波动不仅考验着物流场地的处理能力,也对运输线路的承载能力提出了更高要求。
为了应对这些挑战,预测各物流场地及线路的包裹数量变得至关重要。通过运用先进的数据分析技术和算法,本项目旨在对物流场地的处理能力以及运输线路的承载能力进行精准预测。这些预测结果将为管理者提供有力的决策支持,使他们能够提前安排运输、分拣等计划,从而优化资源配置,降低运营成本,提高运营效率。
唐建荣等人[1]通过综合考虑要素投入与物流业竞争力水平之间的关系,根据2007至2013年我国东部11省市物流数据,构建物流业竞争力固定效应回归计量模型,运用逐步回归对其显著因素进行识别,分析出东部目前物流竞争力主要影响因素;胡雪芹等人[2]结合2019年中国家庭金融调查数据和2018年中国年鉴数据,研究了包括物流配送成本水平对企业盈利水平的影响;查安平[3]研究了广东地区港口物流管理体系现状,分析矛盾产生的原因,对区域物流体系提出改进措施;孙诚秀等人[4]针对临沂物流业发展现状、优势和存在问题分析的基础上,对临沂市如何利用交通优势发展现代物流业,推动物流业“降本增效”贯彻现代物流业的新发展理念,为临沂物流企业的发展提供相关的思路。燕学博等人[5]基于传统ARIMA模型与LSTM模型提出五种ARIMA-LSTM组合模型,发现ARIMA-LSTM组合模型的泛化能力强于单一模型,具有很好的研究与使用价值;刘丽[6]构建了一个高效稳定的快递企业物流网络结构模型,通过实例分析论证了本文所设计的优化策略具有可行性,对实际应用数学模型于物流建设中提供了创新性的思路指导;夏强等人[7]以水果罐头加工厂从进货到出货的输送过程为例,以成本最优为最终目的,在多个约束条件下通过建立线性规划数学模型,运用MATLAB软件中的linprog函数对模型进行求解验证,最终得出最优的路径选择方案。上述内容为本项目研究物流网络应急调运与优化提供了理论基础。
2. 数据收集与预处理
首先,对不同路线的货量数据进行异常值检测,采用了3倍标准差原则。结果显示,部分路线货物量的异常值主要集中在“双十一”之后的时期。考虑到春节期间电商平台的“双十一”是快递行业的高峰期,货量激增在预期之中,因此这些异常值并不适合作为剔除的标准。这一发现与实际情况相符合,进一步确保了数据处理的准确性和可靠性。
2.1. 平稳化检验与平稳化处理
平稳化检验的目的是验证时间序列是否满足平稳性的要求。如果时间序列是非平稳的,则需要进行平稳化处理,以便后续建立ARIMA模型。
若时间序列
满足以下三个条件:
(1)
其中均值u为固定常数,方差
存在且为常数,协方差
只与间隔s有关,与t无关,则称
为协方差平稳,又称弱平稳。由于严格平稳的要求太高,因此在时间序列中提到的平稳没有特殊说明默认为弱平稳。
首先,分别绘制不同路线时间序列的时序图。通过时序图,观察时间序列的特征及整体趋势。如果时间序列呈现出明显的上升或下降趋势,或者具有明显的周期性或季节性,可能表示序列是非平稳的。
根据时序图的观察结果,如果时间序列存在明显的趋势或季节性,则需要对其平稳化,平稳化的方法通常包括差分和变换。差分方法通过计算相邻观测值之间的差值,可以消除序列的趋势性和季节性。其公式如下:
一阶差分表示当前时刻与前一时刻的差值,通常表示为:
(2)
其中,
表示时间序列在时刻t的观测值。
d阶差分表示对时间序列连续进行d次一阶差分操作,通常表示为:
(3)
其中,
表示时间序列在t时刻连续进行d次一阶差分后的结果。
若数据不平稳,则需要对其进行差分运算直到差分后的数据平稳,得差分阶数d。
2.2. 数据集处理
在训练LSTM模型之前,需要对原始时间序列进行预处理。首先,将原始时间序列划分为训练集和验证集,其中训练集用于模型的训练阶段,验证集用于模型评估阶段,以便评估模型的性能和准确性。首先利用滑动窗口按照时间顺序进行划分,每次向前滑动一定的时间窗口来生成新的训练集和测试集。此方法能在时间序列上形成连续的、重叠的子序列集合,从而实现对时间序列数据的有效处理。
3. 基于ARIMA-LSTM的货量预测模型
ARIMA模型是一种经典的时间序列预测方法,适用于处理具有明显趋势和季节性的数据。而LSTM模型作为一种能够处理时间序列数据的深度学习模型,能够捕捉数据中的长期依赖关系和非线性特征。ARIMA模型和LSTM模型各自具有优势和局限性,将它们结合起来,能够充分利用它们各自的特点。通过组合ARIMA和LSTM模型,可以综合考虑时间序列数据的多个方面,提高预测的准确性和鲁棒性。图1为ARIMA-LSTM组合模型建立的步骤图:
为避免赘述,本文将选取线路SC25→SC3为代表,预测其在2024年8月1日至2024年11月30日期间每天的货量进行预测,该物流网络中其他线路的预测与之类似。
3.1. ARIMA模型
首先,运用SPSS软件绘制出路线SC25→SC3的时间序列图,如图2所示。由图可以看出,时间序列的整体趋势在11月呈现出明显的上升趋势,具有明显的周期性和季节性,表明该时间序列是非平稳的。因此,需要通过差分的方法,将其转化为平稳的时间序列。
Figure 1. Step diagram for establishing an ARIMA-LSTM composite model
图1. ARIMA-LSTM组合模型建立的步骤图
Figure 2. Time series chart of cargo volume on route SC25→SC3
图2. SC25→SC3线路货量的时间序列图
对不同的差分阶数进行ADF检测得到下表。从表1中可以看出,在差分为0阶时,显著性P值为0.206,水平上不呈现显著性,不能拒绝原假设,该序列为不平稳的时间序列。在差分为1阶时,显著性P值为0.002***,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。因此,选取差分
。
Table 1. ADF test table
表1. ADF检测表
ADF检验表 |
变量 |
差分阶数 |
t |
P |
AIC |
临界值 |
1% |
5% |
10% |
m |
0 |
−2.201 |
0.206 |
2142.276 |
−3.491 |
−2.888 |
−2.581 |
1 |
−3.975 |
0.002*** |
2127.19 |
−3.491 |
−2.888 |
−2.581 |
2 |
−9.127 |
0.000*** |
2122.017 |
−3.491 |
−2.888 |
−2.581 |
注:***、**、*分别代表1%、5%、10%的显著性水平。
进行残差的自相关函数(ACF)和偏自相关函数(PACF)分析,绘制残差图,见图3和图4。并根据残差的ACF和PACF特征进行分析,以估计ARIMA模型的参数。对于参数p和q的确定,根据残差图的特点进行判断,由以下残差图,可以确定参数。
由图3和图4可知,偏自相关系数在滞后阶数p = 1之后,落入95%置信区间内,因此可以初步判断自回归阶数p = 1。同理,自相关系数在滞后阶数q = 1之后,落入95%置信区间内,因此可以初步判断移动平均阶数q = 1。综上,得到的模型类型分别为ARIMA(1, 1, 1)。用SPSSPRO软件对该模型基于AIC信息准则自动寻找最优参数,得到模型检验表,见表2。从Q统计量结果分析可以得到:Q6在水平上不呈现显著性,不能拒绝模型的残差为白噪声序列的假设,同时模型的拟合优度R2为0.678,模型表现较为良好,模型基本满足要求。
Figure 3. Autocorrelated figure (ACR) of cargo volume on route SC25→SC3
图3. SC25→SC3线路货量的自相关图(ACF)
Figure 4. Partial autocorrelation figure (PACF) of cargo volume on route SC25→SC3
图4. SC25→SC3线路货量的偏自相关图(PACF)
Table 2. Model test parameters
表2. 模型检验参数表
ARIMA模型(1,1,2)检验表 |
项 |
符号 |
值 |
|
Df Residuals |
117 |
样本数量 |
N |
122 |
Q统计量 |
Q6 (P值) |
0 (1.000) |
Q12 (P值) |
1.406 (0.965) |
Q18 (P值) |
18.701 (0.728) |
Q24 (P值) |
9.874 (0.936) |
Q30 (P值) |
10.577 (0.992) |
信息准则 |
AIC |
2029.627 |
BIC |
2042.602 |
拟合优度 |
R² |
0.678 |
注:***、**、*分别代表1%、5%、10%的显著性水平。
对SC25→SC3线路货量预测将来30天每天货量如图5所示。
在对ARIMA模型的残差序列进行数据集划分(滑动窗口大小为90天)后,构建LSTM模型时对参数进行了如下选择:在多次试验和对比不同取值后,平衡了模型对时间序列复杂模式的学习能力与避免过度复杂的结果,故隐藏层大小设为200;在考虑计算资源和时间成本的基础上,观察训练过程中损失函数变化等指标,故迭代次数确定为500次;初始学习率设定为0.001,这是一个相对适中的常见取值。利用训练好的LSTM模型得到时间序列的非线性部分预测结果,将其与线性部分预测结果一同进行反归一化处理,最后加权组合得出最终预测结果。
Figure 5. Forecast of freight volume for route SC25→SC3 in the next 30 days
图5. 未来30天SC25→SC3线路货量预测
3.2. LSTM模型
长短期记忆网络(LSTM)是一种能够有效处理序列数据的深度学习模型,特别适用于时间序列预测、自然语言处理等领域。LSTM模型通过引入门控机制来控制信息的流动和记忆状态的更新,从而解决了传统RNN模型中的长期依赖问题。主要的组成部分包括遗忘门、输入门、输出门和更新记忆单元。
1. 遗忘门(Forget Gate):控制记忆单元中的信息保留程度。它通过一个sigmoid激活函数来输出一个0到1之间的值,表示每个记忆单元中的信息保留程度。其计算公式见下式:
(4)
其中,
为sigmoid激活函数,
用于将门控制的输出限制在0到1之间。
为当前时间步的输入向量,
为上一个时间步的隐藏状态(或记忆细胞)。
为上一个时间步的细胞状态(或记忆细胞),
为遗忘门的输出,用于控制细胞状态中的信息保留程度,
,
,
和
为遗忘门的权重矩阵和偏置项。
2. 输入门(Input Gate):控制新信息加入到记忆单元中的程度。它通过一个sigmoid激活函数来输出一个0到1之间的值,表示每个记忆单元中新信息的重要程度。其计算公式见下式:
(5)
其中,
为输入门的输出,
、
、
和
用于控制新信息的加入程度,为输入门的权重矩阵和偏置项。
3. 更新记忆单元(Cell Update):根据遗忘门、输入门的输出和当前输入,更新记忆单元中的内容。其计算公式见下式:
(6)
其中,
为当前时间步的细胞状态,
为上一个时间步的细胞状态,
,
,
为更新记忆单元的权重矩阵和偏置项。
4. 输出门(Output Gate):根据当前输入和记忆单元的内容,决定当前时刻的输出。其计算公式见下式:
(7)
其中,
为输出门的输出,用于控制当前时间步的输出。
为输出门的权重矩阵和偏置项。
5. 最终输出的计算:
(8)
其中,
为输出门的输出,用于控制当前时间步的输出,tanh为双曲正切激活函数,用于将记忆单元的输出限制在−1到1之间。
将准备好的数据输入到模型中进行训练。通过反向传播算法和优化器,不断调整模型参数,使得模型的预测结果与实际输出尽可能接近。训练完成后,使用模型对未来的序列数据进行预测,最终预测得到未来30天的货量见图6与表3:
Table 3. Cargo volume forecast for SC25→SC3 lines in the next 30 days
表3. 未来30天SC25→SC3线路货量预测
预测值 |
阶数(时间) |
预测结果 |
1 |
24393.13086 |
2 |
24820.03711 |
3 |
25517.97461 |
4 |
26585.88477 |
5 |
24685.23633 |
6 |
22634.01953 |
7 |
30050.250023 |
8 |
36796.38281 |
9 |
32119.13281 |
10 |
31431.06641 |
11 |
30104.5332 |
12 |
28599.7832 |
13 |
26368.93555 |
14 |
27158.75977 |
15 |
46722.54297 |
16 |
52636.14844 |
17 |
39323.52344 |
18 |
33751.30859 |
19 |
31458.49805 |
20 |
30728.28711 |
21 |
31203.6875 |
22 |
34265.09766 |
23 |
37275.73047 |
24 |
33788.69531 |
25 |
26610.46289 |
26 |
28616.46094 |
27 |
28294.03516 |
28 |
24638.65234 |
29 |
23151.34375 |
30 |
20596.00391 |
Figure 6. LSTM prediction result graph
图6. LSTM预测结果图
4. 基于多目标线性规划的物流调运模型
当某物流场地因紧急情况关停时,本项目旨在基于ARIMA-LSTM预测结果,建立多目标货物调运路径优化模型。考虑场地数量限制、货量非负性、工作负荷量限制以及货物分配量的一致性等约束条件,以达到相关线路的包裹尽可能正常流转以及线路工作负荷量尽可能均衡为目标,确定最佳的货物应急调运路径和运输方案。
4.1. 决策变量的设置
定义变量
表示第t天场地i到场地j的货量,
,
,
表示第t天SC1关停后场地i到场地j的货量,t表示线路变化后的第t天。
表示某条线路的历史货量最大值,
表示该场地当前货量,
表示该场地历史货量最大值。
4.2. 目标函数的构建
目标函数由两部分组成,一是使所有包裹尽可能正常流转的条件,即最小化所有SC1相关线路货量分配到其他线路后的差异的总和,其表达式为:
(9)
二是保持线路工作负荷尽可能均衡的条件,即使某条线路的历史货量最大值与SC1关停后该场地的货量之差尽可能小,其表达式为:
(10)
为简化模型,不妨将多目标规划问题转为单目标规划问题进行求解。引入权衡参数,用于平衡两个目标之间的重要性。
(11)
4.3. 约束条件的确立
(12)
(13)
(14)
(15)
其中,
为物流场地的工作负荷量。
(16)
(17)
其中,
表示从场地i到场地j的单位货物运输时间,
表示允许的最长运输时间。
(18)
其中,
表示从场地i到场地j的单位货物运输成本,
表示允许的最大运输成本预算。
对上述的线性规划模型,运用Matlab求解,得到与之相关的11条线路的运输货量情况以及工作负荷的相关数据见表4。
Table 4. The TOPSIS method of the logistics site composite score chart
表4. TOPSIS法的物流场地综合得分表
路线 |
负荷率 |
货量差 |
55→7 |
100.00% |
0 |
45→9 |
100.00% |
0 |
23→12 |
94.86% |
557.6786 |
33→10 |
84.45% |
243.8749 |
45→6 |
79.23% |
646.0867 |
24→12 |
76.98% |
44.96 |
35→3 |
74.67% |
7545.897 |
49→18 |
73.99% |
1568.8 |
58→5 |
66.88% |
9875.44 |
38→36 |
63.98% |
6783.8 |
23→17 |
61.89% |
5655.934 |
在所有的调整线路中,均未出现超负荷的情况,共有2条线路的负荷率达到了100%,分别为线路55→7、45→9。
5. 基于熵权法的TOPSIS对物流场地的评价模型
基于熵权法的TOPSIS模型是一种多指标决策方法,它结合了熵权法和最优解相似性的概念,通过确定各评价指标的权重,并将备选方案与理想解和反理想解进行比较,综合评价方案的优劣程度。该模型具有客观性、简单易用、综合性、灵活性等优点,能够有效地评价物流场地的多个方面。建模过程见图7。
为了评价物流场地的综合性能,通过前期的问卷调查与实地调研,运输货量可衡量业务规模和繁忙程度;网络位置决定运输便利性和辐射范围;运输效率体现货物运转速度;运输成本和运营成本关乎企业经济效益与资源利用情况。因此,本项目选取运输货量(
)、网络位置(
)、运输效率(
)、运输成本(
)以及运营成本(
)这5个评价指标对物流场地进行评价。
5.1. 熵权法求各指标的权重
熵权法是一种客观评价方法,常用于确定TOPSIS方法中各评价指标的权重。该方法通过分析指标的变异程度,推断出各指标所反映的信息量大小。
5.1.1. 计算指标的信息熵
信息熵用于衡量指标的不确定性,表示为
,计算公式如下:
(19)
其中,
是第j个指标下第i个样本的权重。
Figure 7. TOPSIS roadmap based on the entropy weight method
图7. 基于熵权法的TOPSIS路线图
5.1.2. 计算各指标的权重
通过信息熵计算各指标的权重,公式为:
(20)
其中,
是第j个指标的权重,m是指标的个数。
5.2. TOPSIS求解过程
5.2.1. 数据标准化
将原始数据矩阵X标准化为Z,使得各指标具有相同的量纲。标准化公式为:
(21)
其中,
是第i个样本在第j个指标上的标准化值,
是原始数据矩阵中第i个样本在第j个指标上的取值,
和
分别是第j个指标的最大值和最小值。
5.2.2. 加权规范化
将标准化后的矩阵Z按照权重进行加权,得到加权规范化矩阵。加权规范化这一过程的公式为:
(22)
其中,
是第i个样本在第j个指标上的加权规范化值,
是第j个指标的权重。
5.2.3. 计算正负理想解
分别计算每个指标的最大值和最小值,得到正负理想解。正理想解
和负理想解
的计算公式为:
(23)
其中,
是第j个指标的最大值,
是第j指标的最小值。
5.2.4. 计算到正负理想解的距离
计算每个方案到正负理想解的欧氏距离,分别得到正理想解的距离
和到负理想解的距离
。
(24)
5.2.5. 计算综合得分
综合得分
计算为到最小值的距离与到最大值的距离之比,距离越小越接近最佳解,以综合得分对物流场地进行排序。
(25)
通过上述步骤,下面给出部分物流场地的TOPSIS模型评价结果见表5:
Table 5. The TOPSIS method of the logistics site composite score chart
表5. TOPSIS法的物流场地综合得分表
物流站点 |
正理想解距离(D+) |
负理想距离(D−) |
综合得分(Si) |
排序 |
DC15 |
0.302584601 |
0.8516379 |
0.737845519 |
1 |
DC2 |
0.415311765 |
0.821396763 |
0.664179752 |
2 |
DC33 |
0.441762223 |
0.692546225 |
0.610544888 |
3 |
DC17 |
0.534067906 |
0.696928392 |
0.566149869 |
4 |
DC26 |
0.725657877 |
0.390582275 |
0.349908821 |
5 |
DC29 |
0.78925039 |
0.402491623 |
0.337733854 |
6 |
DC38 |
0.69104844 |
0.350689392 |
0.336638817 |
7 |
DC57 |
0.830186721 |
0.382057953 |
0.31516571 |
8 |
DC37 |
0.835117079 |
0.368851466 |
0.306363042 |
9 |
DC49 |
0.838115706 |
0.367585589 |
0.304819191 |
10 |
的值越大,则说明该研究对象距离最劣解越远,则研究对象越好,以综合得分情况衡量最终排名。可以得知由所选指标得分排名前五的物流地点为DC15、DC2、DC33、DC17、DC26,最高得分为0.738。
基金项目
省级大学生创新训练计划项目(S202410446065)。