融合注意力机制与卡尔曼滤波的LSTM模型在农村网络零售额预测中的应用

期刊菜单

融合注意力机制与卡尔曼滤波的LSTM模型在农村网络零售额预测中的应用
Application of LSTM Model Integrated with Attention Mechanism and Kalman Filter in Rural Online Retail Sales Prediction

DOI: 10.12677/ecl.2025.143809, PDF, HTML, XML,
作者: 丁汉韬, 宋瑾钰^*：浙江理工大学计算机科学与技术学院(人工智能学院)，浙江杭州
关键词: 农村电商；时间序列预测；LSTM；注意力机制；卡尔曼滤波；Rural E-Commerce； Time Series Forecasting； LSTM； Attention Mechanism； Kalman Filter

摘要: 在信息技术不断进步和农村基础设施日益完善的背景下，电子商务已逐步渗透到农村市场，并成为推动农业现代化的重要动力。然而，农村电商的发展仍面临诸多挑战，如商品质量参差不齐、专业人才缺乏、物流效率低下等问题。为了更准确地预测农村电商的市场趋势，为电商企业和政策制定者提供科学的数据支持，本研究提出了一种基于长短时记忆网络(Long-Short Term Memory, LSTM)的时间序列预测模型，并结合注意力机制(Attention Mechanism)和卡尔曼滤波(Kalman filter)技术，对2024~2026年农村网络零售额进行预测。实验结果表明，引入注意力机制和卡尔曼滤波后，模型的预测精度显著提升，均方误差(mean-square error, MSE)、均方根误差(root-mean-square error, RMSE)和平均绝对误差(Mean absolute error, MAE)均有所降低。研究结果为农村电商的市场趋势分析和政策制定提供了科学依据，具有重要的现实意义。

Abstract: With continuous advancements in information technology and the gradual improvement of rural infrastructure, e-commerce has increasingly penetrated rural markets, becoming a key driver of agricultural modernization. However, its development still faces numerous challenges, such as inconsistent product quality, a shortage of skilled professionals, and low logistics efficiency. To more accurately predict market trends in rural e-commerce and provide scientific data support for e-commerce enterprises and policymakers, this study proposes a time series prediction model based on Long Short-Term Memory (LSTM) networks, incorporating an attention mechanism and Kalman filter techniques to forecast rural online retail sales from 2024 to 2026. The experimental results indicate that the introduction of the attention mechanism and Kalman filter significantly improves the model’s prediction accuracy, reducing the mean square error (MSE), root mean square error (RMSE), and mean absolute error (MAE). The findings provide a scientific basis for market trend analysis and policy formulation in rural e-commerce, offering important practical significance.

文章引用：丁汉韬, 宋瑾钰. 融合注意力机制与卡尔曼滤波的LSTM模型在农村网络零售额预测中的应用[J]. 电子商务评论, 2025, 14(3): 1140-1150. https://doi.org/10.12677/ecl.2025.143809

1. 引言

随着互联网技术的快速发展和快递枢纽等基础设施网络持续建设，“网购”被越来越多的人所熟知，电子商务也早已走进农村，成为乡村振兴的关键。当前，农村电商的发展不仅是推动商业模式创新、构建现代化农村流通体系的重要举措，也是优化农业发展方式、促进农民增收的有效手段，更是激发农村消费活力、满足人民美好生活需求的有力支撑[1]。

虽然在这样的背景下，农村电商的蓬勃发展为农村地区的经济增长带来了新的机遇，但农村电商依然遭遇了诸多困难：商品质量参差不齐，影响了消费者的信任和购买意愿；专业电商人才缺乏，限制了农村电商的运营和管理水平；物流配送效率较低等问题，增加了运营成本并影响了用户体验[2]。种种问题限制了农村电商的发展，亟需通过科学的数据分析方法来预测市场趋势、优化运营策略。时间序列预测作为一种重要的数据分析手段，能够通过对历史数据的建模和分析，帮助电商企业更好地了解市场变化，理解市场动态，精准发展决策。

随着数字化时代机器学习技术迅猛发展，尤其是深度学习在时间序列预测中的应用，为农村电商的数据分析开辟了全新的视角，带来新的思路。其中，LSTM作为一种擅长处理长期依赖问题的神经网络模型，已在多个领域展现出卓越的预测性能。通过结合注意力机制和卡尔曼滤波等先进技术，可以进一步提升模型的预测精度和稳定性。鉴于此，本文采用LSTM模型，并巧妙地融合了注意力机制和卡尔曼滤波技术，对2024~2026年农村网络零售额进行预测，旨在为农村电商的发展提供科学的参考依据，助力乡村振兴战略的实施，推动农村经济的持续繁荣。

2. 相关研究

预测类数据分析方法不少：时间序列预测方法主要是分析建模历史数据，以推测未来趋势，常见方法包括灰色预测和ARIMA模型。回归预测方法则依据自变量与因变量之间的数学关系构建模型，并通过参数估计进行数值预测，例如线性回归和逻辑回归。机器学习预测方法依托算法自动学习数据中的模式和规律，进而建立模型用于分类或数值预测，代表性方法包括支持向量机和神经网络。

在电商领域已有许多采用预测方法分析数据的案例：朱捷等[3]收集近十年农村网络零售额数据并建立Holt-Winters模型，对零售额发展趋势进行预测。郑佳伟[4]用时间序列分析理论拟合SARIMA模型，对无疫情影响下的社会消费品零售总额进行预测。胡博文等[5]使用Keras框架搭建三层LSTM神经网络模型，对比分析了CNN模型、传统LSTM模型、ARMA-SVR组合模型和WaveNet-LSTM模型的性能。王渊明[6]基于电商行业历史销售数据，研究LSTM神经网络在SKU销量预测中的应用，构建LSTM模型并优化训练方法，实现了自适应隐藏神经元数量调整。黄莺等[7]以京东电商平台办公行业成交金额为对象，采用灰色关联分析找出关键影响因素，研究了GM(1,N)-Prophet组合模型在电商销售预测中的应用。王泽菡等[8]提出基于LSTM-DNN的电子商务销售预测模型以应对复杂的非线性时间序列，提高了预测精度，帮助电商企业降低管理成本。

本研究选择采用LSTM基础模型以及对2024~2026年的农村网络零售额展开预测，然后添加注意力机制并进行卡尔曼滤波平滑处理，最后对结果进行分析比较，助力研究农村电商发展趋势，为中国农村数字赋能的相关政策制定提供参考。

3. 方法

3.1. LSTM

LSTM是由Hochreiter和Schmidhuber于1997年提出的一个RNN变种，通过引入遗忘门、输入门和输出门实现门控机制，存储和传递长期记忆的细胞状态，动态地控制信息的流动与存储，从而在更长的时间跨度内保持信息稳定性，并选择性遗忘不再需要的信息，有效解决标准RNN在处理长期依赖问题时常遇到的梯度消失和爆炸问题，适用处理长时间序列建模任务，可充分运用于金融数据预测领域[9]。LSTM主要结构见图1所示：

Figure 1. Schematic diagram of LSTM model

图1. LSTM模型原理图

LSTM的计算过程可以归纳为输入门计算，遗忘门计算，细胞状态更新，输出门计算，输出状态计算这五个部分，公式(1)~(6)为相关计算方法。

$i_{t} = σ (W_{i i} \cdot [h_{t - 1}, x_{t}] + b_{i i})$ (1)

$f_{t} = σ (W_{i f} \cdot [h_{t - 1}, x_{t}] + b_{i f})$ (2)

$g_{t} = \tanh (W_{i g} \cdot [h_{t - 1}, x_{t}] + b_{i g})$ (3)

$c_{t} = f_{t} ⊙ c_{t - 1} + i_{t} ⊙ g_{t}$ (4)

$o_{t} = σ (W_{i o} \cdot [h_{t - 1}, x_{t}] + b_{i o})$ (5)

$h_{t} = o_{t} ⊙ \tanh c_{t}$ (6)

其中， $h_{t - 1}$ 是上一时刻的输出状态， $x_{t}$ 是当前时刻的输入数据， $σ$ 是sigmoid函数， $W_{i i}$ 和 $b_{i i}$ 是门控单元的权重和偏置。

3.2. 注意力机制

注意力机制是一种用于数据处理的技术，能够自动学习输入数据对输出结果的影响程度，并以权重的方式加以体现。作为模型中的一种特殊结构，它能够增强关键特征的表达能力。在时序预测中加入注意力机制，有助于模型聚焦于对预测结果影响最大的关键信息，提高预测的精确性。该机制通常由查询矩阵(Query)、键(key)还有加权平均值组成，可视为多层感知机(Multilayer Perceptron, MLP)，计算公式如下：

$Attention (Query, Source) = \sum_{i = 1}^{L_{x}} Similarity (Query, {Key}_{i}) * {Value}_{i}$ (7)

其中，Source由一系列的键值对构成，Query表示给定的Target元素，Key表示Source中元素的Key值，Value表示Source中元素的Value值，权重系数代表Query与key的相似性，格式为 $Similarity (Query, {Key}_{i})$ ， $Attention (Query, Source)$ 表示加权求和。

本文选择添加加权注意力机制。首先，通过MLP网络计算Query和不同Key的相似性，求得不同Value的原始权重，使用双曲正切(tanh)激活函数引入非线性，然后使用softmax函数对原始权重归一化，将数值的范围映射到0和1之间，最后根据权重系数对Value加权求和，得到最终的注意力数值。方法详见公式(8)~(10)：

$Similarity (Query, {Key}_{i}) = MLP (Query, {Key}_{i})$ (8)

$a_{i} = Softmax (S i m_{i}) = \frac{e^{S i m_{i}}}{\sum_{j = 1}^{L_{x}} e^{S i m_{j}}}$ (9)

$Attention (Query, Source) = \sum_{i = 1}^{L_{x}} a_{i} * {Value}_{i}$ (10)

3.3. 卡尔曼滤波后处理

卡尔曼滤波是一种基于线性系统状态方程的优化估计算法，它利用系统的输入和观测数据，动态预测和修正系统状态。该算法在估计过程中能有效滤除噪声，使其结果更接近真实状态，因此也被视为一种滤波方法。假设系统符合以下状态空间模型：

$X_{t} = A X_{t - 1} + B U_{t} + W_{t}$ (11)

$Z_{t} = H X_{t} + V_{t}$ (12)

其中， $X_{t}$ 是系统的真实状态(未观测)， $Z_{t}$ 是观测值，A是状态转移矩阵，B是控制输入矩阵，H是观测矩阵， $W_{t} ~ N (0, Q)$ 是过程噪声，服从均值为0，协方差为Q的正态分布， $V_{t} ~ N (0, R)$ 是测量噪声，协方差为R。

本文采用LSTM + 卡尔曼滤波后处理，先用LSTM预测目标值，再使用卡尔曼滤波平滑预测结果，减少噪声和随机波动的影响，提高预测的稳定性和精度，提高模型的泛化能力，防止模型过拟合。在具体计算过程中，公式(13)~(14)表示预测步骤，(15)~(17)表示更新步骤。

${\hat{X}}_{t}^{-} = A {\hat{X}}_{t - 1} + B U_{t}$ (13)

$P_{t}^{-} = A P_{t - 1} A^{T} + Q$ (14)

$K_{t} = P_{t}^{-} H^{T} {(H P_{t}^{-} H^{T} + R)}^{- 1}$ (15)

${\hat{X}}_{t} = {\hat{X}}_{t}^{-} + K_{t} (Z_{t} - H {\hat{X}}_{t}^{-})$ (16)

$P_{t} = (I - K_{t} H) P_{t}^{-}$ (17)

其中， $K_{t}$ 是卡尔曼增益， $P_{t}$ 是更新后的协方差矩阵。

4. 实验设计与结果分析

4.1. 实验环境

本文所有实验的环境配置相同，具体如表1所示。

Table 1. Experimental environment

表1. 实验环境

操作系统	Windows11家庭中文版23H2
CPU	12th Gen Intel (R) Core (TM) i7-12700H
GPU	Intel (R) Iris (R) Xe Graphics
内存	16.0 GB
编译语言	Python 3.9.16
深度学习框架	Pytorch

4.2. 数据来源及评价指标

由于农村网络零售额能够直观反映农村地区的电商交易规模和市场活跃度，同时受到消费水平、基础设施建设及政策扶持等多种因素的影响，因此能够较为全面地表征农村电商的发展趋势，具有较高的代表性和参考价值，实验选取农村网络零售额作为预测指标，用于衡量农村电商发展情况。

本文选择了多个影响因素作为候选特征，采用基于随机森林的特征重要性评估方法，计算每个特征在模型中的平均不纯度减少(Mean Decrease Impurity, MDI)，评估其对农村网络零售额的影响。分析结果显示，各特征的重要性排序见表2：

Table 2. Importance score

表2. 重要性评分

特征	重要性评分
互联网普及率	0.22
农村居民人均消费支出	0.20
农村人均可支配收入	0.18
农村恩格尔系数	0.14
农村就业人数	0.11
农村人口老龄化程度	0.08
农村电商服务质量	0.07

根据排序结果，选取农村就业人数、农村居民人均消费支出、农村人均可支配收入、农村恩格尔系数和互联网普及率共五个关键因素作为特征值输入。

研究数据主要来源于国家统计局公布的官方数据[10]。国家统计局作为国家宏观经济数据的权威发布机构，其数据具有高度的可靠性和准确性，能够为研究提供坚实的数据支撑。同时，为了补充和验证数据，本研究还参考了以下数据来源：全国电子商务公共服务网，提供关于中国网络零售市场的详细报告，包括市场规模、结构和发展趋势等信息；中国政府网，发布关于我国网上零售额的官方数据，包括总额和增长率等信息；中华人民共和国商务部官网，作为商务部的官方信息发布平台，提供了丰富的政策解读、行业动态以及宏观经济数据。此外，本研究还参考了其他网络权威数据库，如中国知网(CNKI)、万方数据等，这些数据库提供了大量严谨的学术研究成果和科学的行业分析报告，进一步丰富了研究的数据来源。

为确保数据的质量和适用性，首先进行数据清洗，去除异常值和错误数据，确保数据的准确性。然后进行数据整合，将异源数据整理形成统一的数据集。最后进行数据验证，通过交叉验证和专家咨询，确保数据的可靠性。处理后供模型预测使用的部分年度数据见表3：

Table 3. Sample data

表3. 样本数据

年份	农村就业人数 (万人)	农村居民人均消费支出(元)	农村人均可支配收入(元)	农村恩格尔系数(%)	总互联网普及率(%)	农村网络零售额(万亿元)
2013	37,774	7485	9430	34.1	45.8	0.11
2014	36,646	8383	10,489	33.6	47.9	0.18
2015	35,404	9223	11,422	33.0	50.3	0.35
2016	34,194	10,130	12,363	32.2	53.2	0.89
2017	32,850	10,955	13,432	31.2	55.8	1.24
2018	31,490	12,124	14,617	30.1	59.6	1.37

为了展示训练结果并比较不同模型结构的影响，实验选择MSE、RMSE和MAE作为评价指标，三者公式如(18)~(20)。

$MSE = \frac{1}{n} \sum_{n - 1}^{N} {({y^{'}}_{n} - y_{n})}^{2}$ (18)

$RMSE = \sqrt{\frac{1}{N} \sum_{i = 1}^{n} {({y^{'}}_{n} - y_{n})}^{2}}$ (19)

$MAE = \frac{1}{N} \sum_{n - 1}^{N} | {y^{'}}_{n} - y_{n} |$ (20)

其中， $N$ 为输入样本数， ${y^{'}}_{n}$ 为预测值， $y_{n}$ 为真实值。

4.3. 实验过程与结果讨论

4.3.1. 模型构建

为验证注意力机制和卡尔曼滤波对于提升LSTM模型准确度的作用，本实验构建了LSTM基础模型，LSTM-Attention模型以及LSTM-Attention-Kalman模型。用Netron查看模型pth文件结果如图2和图3。图2表示的是LSTM的模型层次结构，图3表示的是LSTM-Attention和LSTM-Attention-Kalman模型的层次结构。由于实验采用的卡尔曼滤波与LSTM结合的方法是后处理，故LSTM-Attention和LSTM-Attention-Kalman模型的层次结构相同。

Figure 2. LSTM model structure diagram

图2. LSTM模型结构图

Figure 3. Structure diagram of LSTM-Attention and LSTM-Attention-Kalman models

图3. LSTM-Attention和LSTM-Attention-Kalman模型结构图

4.3.2. 训练与预测

实验选择Adam优化器，结合动量法和RMSProp的优点，在训练过程中自动调整学习率，让模型收敛更快更稳。设置初始学习率为0.001，epoch为1000，过程使用ReduceLROnPlateau学习率调度器进行动态调整，避免模型陷入局部最优并提高模型的泛化能力。采用MSE作为损失函数，并通过梯度裁剪来防止梯度爆炸问题。图4展示了三个不同模型(LSTM基础模型、LSTM-Attention模型以及LSTM-Attention-Kalman模型)的训练结果，loss曲线代表各模型在训练过程中的收敛情况。training loss依次为0.0118，0.0109，0.0104。

Figure 4. Training results of LSTM, LSTM Attention, LSTM-Attention-Kalman models

图4. LSTM，LSTM-Attention，LSTM-Attention-Kalman模型的训练结果图

从图4中可见，作为对比基准，LSTM基础模型的validation loss相对较高，说明在没有引入注意力机制和卡尔曼滤波的情况下，模型的预测性能较差。基于注意力机制的LSTM-Attention模型的validation loss与基础模型相比较低，这表明注意力机制能聚焦关键特征，提高模型性能。在此基础上进一步引入卡尔曼滤波，validation loss进一步降低。这说明卡尔曼滤波在处理时间序列数据时，能够有效地平滑数据并减少噪声的影响，从而进一步提升模型的预测准确性和泛化能力。

Table 4. Experimental indicators

表4. 实验指标

模型类型	MSE	RMSE	MAE
LSTM	0.0251	0.1585	0.1515
LSTM-Attention	0.0105	0.1026	0.0988
LSTM-Attention-Kalman	0.0102	0.1014	0.1107

从表4中可见，LSTM基础模型的MSE、RMSE、MAE都是最高的，添加注意力机制的LSTM-Attention模型以及额外引入卡尔曼滤波的LSTM-Attention-Kalman模型各项指标都比LSTM更优异。其中，LSTM-Attention模型取得了最小的MSE和RMSE，LSTM-Attention-Kalman模型取得了最小的MAE。总体而言，添加注意力机制和卡尔曼滤波使模型预测性能产生了较为明显的提升。

Figure 5. Prediction maps of LSTM, LSTM-Attention, LSTM-Attention-Kalman models

图5. LSTM，LSTM-Attention，LSTM-Attention-Kalman模型的预测图

Table 5. Prediction results

表5. 预测结果

模型类型	2024	2025	2026	趋势
LSTM	2.76万亿元	2.86万亿元	2.98万亿元	持续上升
LSTM-Attention	2.95万亿元	3.11万亿元	3.18万亿元	持续上升
LSTM-Attention-Kalman	2.88万亿元	3.10万亿元	3.46万亿元	持续上升

图5和表5分别给出了三种模型的预测结果图和详细数据。观察发现，LSTM模型预测2024~2026年农村网络零售额依次为2.76万亿元、2.86万亿元、2.98万亿元，LSTM-Attention模型预测2024~2026年农村网络零售额依次为2.95万亿元、3.11万亿元、3.18万亿元，LSTM-Attention-Kalman模型预测2024~2026年农村网络零售额依次为2.95万亿元、3.11万亿元、3.18万亿元，三种模型预测的农村网络零售额均呈现逐年上升的趋势，可以观察到LSTM-Attention-Kalman模型的预测曲线更为平滑也更贴近历史数据。

5. 结论

本文通过构建LSTM模型并结合注意力机制和卡尔曼滤波技术，对农村网络零售额进行了预测。实验结果表明，引入注意力机制能够有效提升模型对关键特征的捕捉能力，而卡尔曼滤波则进一步平滑了预测结果，减少了噪声和随机波动的影响。与基础LSTM模型相比，LSTM-Attention模型和LSTM-Attention-Kalman模型在预测精度上均有显著提升，尤其是在均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)等评价指标上表现更为优异。

预测结果显示，2024~2026年农村网络零售额将持续上升，LSTM-Attention-Kalman模型的预测曲线不仅平滑度更高，而且与历史数据高度契合，表明该模型具有较强的泛化能力和稳定性。研究结果不仅为农村电商的市场趋势分析提供了科学依据，还为相关政策的制定和农村数字化改造提供了参考。未来研究可以进一步探索更多影响农村电商发展的因素，如物流设施数量、政策扶持力度、消费者行为模式等，拓展模型的应用范围，同时，还可以尝试融合更多先进的深度学习模型与优化算法，优化模型结构以提升预测的准确性和实用性，增加预测结果的参考价值，为农村电商的持续发展提供更有力的支持。

NOTES

^*通讯作者。

参考文献

[1]	商务部, 中央网信办, 财政部, 交通运输部, 农业农村部, 市场监管总局, 国家邮政局, 共青团中央, 供销合作总社. 商务部等9部门关于推动农村电商高质量发展的实施意见[EB/OL]. https://www.gov.cn/zhengce/zhengceku/202403/content_6939283.htm, 2024-03-05.
[2]	任启航. 乡村振兴背景下农村电商物流发展存在的问题及对策研究[J]. 电子商务评论, 2024, 13(2): 3952-3958. https://doi.org/10.12677/ecl.2024.132481
[3]	朱捷, 毕东. 基于Holt-Winters模型的农村网络零售额发展趋势探析[J]. 中国商论, 2024(16): 9-12.
[4]	郑佳伟. 我国社会消费品零售总额的时间序列分析与预测[J]. 统计学与应用, 2024, 13(4): 1501-1511. https://doi.org/10.12677/sa.2024.134150
[5]	胡博文, 李军. 基于多层LSTM的电商商品销售预测[J]. 计算机科学与应用, 2021, 11(12): 3081-3090. https://doi.org/10.12677/csa.2021.1112311
[6]	王渊明. 基于LSTM神经网络的电商需求预测的研究[D]: [硕士学位论文]. 济南: 山东大学, 2018.
[7]	黄莺, 张筠汐. 基于GM(1, N)-Prophet组合模型的电商行业销售预测研究[J]. 西南民族大学学报(自然科学版), 2021, 47(3): 317-325.
[8]	王泽菡, 徐毓晖, 王晓文. 基于深度学习的电子商务销售预测[J]. 科技创新与应用, 2024, 14(23): 40-43, 47.
[9]	Wikipedia (2025) Long Short-Term Memory. https://en.wikipedia.org/wiki/Long_short-term_memory
[10]	中华人民共和国国家统计局. 中国统计年鉴[M]. 北京: 中国统计出版社, 2024.

为你推荐

友情链接