随着城市人口的不断增加,机动车数量快速增长,公路路网密度不断增大
目前,世界各地都在不断增加对智能交通系统的投入,许多的研究也就围绕此展开。2016年,罗来鹏
目前的交通流预测研究虽然已经取得了一些进展,但由于交通具有复杂性和受多种因素(如天气)的影响,现有方法在实际预测需求方面还有待优化,因此本文建立了GCN-Transformer来对短时交通量进行确定性预测。
图卷积神经网络(Graph Convolutional Network, GCN)是一种基于图数据的深度学习方法,它利用图结构中节点和边之间的拓扑结构,处理图像标签之间的空间关系
图卷积神经网络主要包括卷积算子和池化算子的构建,其中卷积算子的目的是刻画节点的局部结构,而池化算子的目的是学到网络的层级化表示,降低参数
计算公式如下:
(1)
其中, 表示第l层的节点表示,N是图中节点的数量,d是节点的特征维度。 是图邻接矩阵A与自环矩阵 的和, 是一个 的单位矩阵。 是对角矩阵,其中 。 是第l层的权重矩阵, 表示第l + 1层的节点特征维度。 表示激活函数,常用的激活函数有ReLU、sigmoid等。
GCN的优势在于能够利用图结构中的局部与全局信息,从而更好地学习节点的表示。通过聚合邻居节点的特征,GCN能够传播信息到远离节点,捕捉到跨节点的联系和依赖关系
交换器(Attention Is All You Need, Transformer)是一种用于序列建模的深度学习模型,最初由Vaswani等人于2017年提出,并在机器翻译任务中取得了重大突破。与传统的循环神经网络(Recurrent Neural Network, RNN)不同,Transformer采用了自注意力机制,通过并行计算来处理序列中的不同位置,在多个层次上进行信息交换和集成,从而提高了模型的学习能力和效果(
(2)
除了自注意力机制,Transformer模型还引入了位置编码来表示序列中每个位置的相对位置信息。位置编码是一个与特征维度相同的向量序列,在计算过程中被添加到输入特征中。通常,位置编码可以通过正弦和余弦函数来计算,具体公式如下:
(3)
(4)
在上述公式中,pos表示位置,i表示位置编码的维度, 表示特征维度。通过位置编码,模型能够感知输入序列中不同位置的信息。
总结起来,Transformer模型是一种强大的深度学习模型,适用于各种序列建模任务。它通过自注意力机制和位置编码,能够捕捉序列中的全局依赖关系,并实现并行计算
长短时记忆网络(Long Short-Term Memory, LSTM)是一种循环神经网络结构的变体,能够解决循环神经网络中遇到的梯度爆炸和梯度消失问题
(5)
(6)
(7)
(8)
(9)
(10)
其中, 分别表示遗忘门、输入门、输出门和记忆单元的权重系数矩阵; 函数表示双曲正切激活函数; 表示 函数; 表示偏置向量。
我们首先对四个方向的交通流量数据进行读取与预处理,这些方向包括南北和东西两个主要流向。接下来,我们将这些不同方向的交通流量数据融合,以便构建一个统一的交通流量数据表示。在此基础上,我们进一步构建了路网结构的邻接矩阵,该矩阵能够有效刻画路网中不同节点之间的连接关系。最后,我们根据研究需求,将数据划分为训练集、验证集和测试集,为后续模型训练与评估提供数据支撑。
在模型训练阶段,我们利用图卷积网络(GCN)对合并后的交通流量数据进行特征提取和图卷积操作。GCN的引入使我们能够充分捕捉路网中复杂的拓扑结构和空间依赖关系。随后,我们将GCN的输出作为Transformer模型的输入,利用Transformer强大的时序建模能力,进一步学习交通流量数据中的时序信息。在模型训练过程中,我们采用适当的损失函数,并通过反向传播算法对模型参数进行优化,以实现模型性能的最大化。
完成模型训练后,我们使用训练好的模型对测试集数据进行预测,并计算一系列评价指标,包括均方根误差(RMSE)、平均绝对误差(MAE)、均方根百分比误差(RMSPE)和平均百分比误差(MAPE)。这些指标能够全面反映模型在交通流量预测任务上的性能表现,为后续的研究与应用提供重要参考。
确定性预测是指在给定输入条件下,通过建立预测模型来预测未来事件或结果的过程。确定性预测假定未来的结果是可预测和确定的,即未来的结果只有一个可能的发生方式。
本文的短时交通流,便是基于已知的某路段的数据信息和可观察的因素,通过分析、数据预处理以及建立相关的GCN-Transformer模型来估计未来的短时间内交通流量的数据。
因此,本文主要采用以下评价指标:
1) 平均绝对误差(Mean Absolute Error, MAE):
(11)
其中,n表示样本数, 表示第i个样本的真实值, 表示第i个样本的预测值。
2) 均方根误差(Root Mean Squared Error, RMSE):
(12)
其中,n表示样本数, 表示第i个样本的真实值, 表示第i个样本的预测值。
3) 平均绝对百分比误差(Mean Absolute Percentage Error, MAPE):
(13)
其中,n表示样本数, 表示第i个样本的真实值, 表示第i个样本的预测值。
4) 相对均方根误差(Root Mean Squared Error Relative, RMSPE):
(14)
其中,n表示样本数, 表示第i个样本的真实值, 表示第i个样本的预测值, 表示均值。
通过使用这些评价指标,可以对预测模型的准确性进行客观的量化评估。
为了训练模型,使其拥有可行性,我们对真实的现场交通数据进行了调研。通过来自重庆主城区某主干道的交叉口收集到的数据进行训练。收集时间为一星期,统计间隔为5 min作为样本数据的数据集。将生成的数据集按照3:1:1的比例划分出训练集、验证集、测试集。
交通流量数据通常由多个传感器采集。由于一些不可控因素,例如传感器故障或者天气等,数据中可能会出现缺失值。而缺失值的存在会影响到基于数据的交通流量预测的准确性和稳定性,因此需要进行处理以保证预测的可靠性。
在本文中,我们采用将缺失值使用均值填充的方法。这种方法基于一个简单的假设:使用该列中的均值来替换缺失值,利用已有的数据来估计缺失数据的取值。具体的处理步骤如下:
1) 计算均值:
针对车流量这一特征,通过计算其对应列的均值来获取当前数据集中的平均车流量值。
2) 缺失数据填充:
对于每个缺失的数据点,采用车流量列的均值来进行填充,确保数据的完整性和连续性。
3) 数据准备:
将填充后的数据转换成二维向量,并准备用于模型训练或预测。
构建了路网结构的邻接矩阵,为后续模型训练提供了数据基础。
采用均值填充缺失值的优点在于简单易行,且能够较好地保留各特征的整体分布和趋势。同时,均值填充也可以避免出现NAN或者Infinity等无穷大的值,使得数据更为完整。然而,均值填充也有一些缺点,例如对于随机分布的数据可能会导致部分的数据抖动,且对于数据的分布不稳定情况可能会引入偏差等问题。因此,应用中需根据具体情况选择的合适的数据预处理方式。
在短时交通流量的确定性预测中,数据预处理是一个至关重要的阶段。填充缺失值使用均值填充的方法在简化问题的同时,也能够提高数据利用率,保证数据的完整性和可靠性。但是,需要注意的是选择预处理方法时要根据具体任务和数据特征进行选择,以保证最终的预测结果准确可靠。
RMSE |
MAE |
RMSPE |
MAPE |
|
GCN |
23.246 |
13.466 |
18.519 |
20.417 |
Transformer |
31.587 |
28.694 |
57.951 |
38.346 |
Bi-LSTM |
39.562 |
37.729 |
36.739 |
25.449 |
GCN-Transformer |
9.886 |
7.977 |
11.018 |
11.734 |
实验结果表明,GCN-Transformer在各项指标上均表现出色,尤其在RMSE和MAE方面,显著优于其他模型。这表明,结合图卷积网络与Transformer的混合模型在处理时序预测任务中具有较强的优势。
下面将采用预测结果对比折线图来详细描绘交通量随时间变化的动态趋势。图中,纵轴精确反映了交通量的数值变化,而横轴则代表以每日零点为起点的时间轴,每个时间步长精准设定为5分钟。
GCN模型的预测结果如下
Transformer模型的预测结果如下
Bi-LSTM模型的预测结果如下
GCN-Transformer模型的预测结果如下
通过分析
本文所提出的GCN-Transformer混合预测模型在短时交通量确定性预测中拥有较好的结果,在采用的四个评价指标中的值分别为RMSE = 9.886%、MAE = 7.977%、RMSPE = 11.018%、MAPE = 11.734%,从
与效果较好的对比模型GCN相比,本文所提模型的四项评价指标RMSE、MAE、RMSPE和MAPE分别改进了13.36%、5.489%、7.501%和8.683%。这说明因为混合模型融合了GCN和Transformer它们的优点,从而提高了预测精度,而且混合模型能够综合利用多种信息,提供更全面的特征表示,适当增加了模型的复杂度,提高了对数据的拟合能力。
在本文中,我们提出了GCN-Transformer组合模型的交通流量预测方法。GCN-Transformer模型结合了图卷积神经网络和自注意力机制,能够处理交通网络中的复杂拓扑结构和时空关系。通过图卷积神经网络,模型可以有效地捕捉节点之间的相互作用,而自注意力机制则有助于对时间和空间维度的信息进行有效的编码和建模。结合图神经网络挖掘非欧数据时空特征的优点和自注意力机制的特点,对输入数据进行线性转换后分别提取时间特征和空间特征,通过多次跳层连接进行加权融合,最后经过线性转换输出预测数据。结果表明,GCN-Transformer组合模型对数据的拟合效果良好,具有较高的预测精度,预测的交通流数据保持了较高的一致性,是一种实用的短时交通流预测模型,满足了最开始我们希望通过该组合模型对交通流进行预测,减少交通拥堵等问题的设想。
通过本文的研究,我们得出以下结论:GCN-Transformer混合模型在短时交通量确定性预测中提高了预测精度和准确性,对交通流数据的预测效果明显优于单一模型GCN、Transformer和混合模型Bi-LSTM,为交通流预测提供了一种有效的方法。
综合以上分析,GCN-Transformer组合模型满足了本文对交通流预测的实际需求,具有较高的预测精度和实用性。该模型为解决交通拥堵等问题提供了有效的方法和工具,为交通管理和规划提供了有力支持。在未来的研究中,可以进一步优化模型结构和算法,提升预测效果,同时扩展模型在其他领域的应用,以实现更广泛的社会价值。
在本研究完成之际,我们要衷心感谢学校对我们研究工作的大力支持。同时,也要向所有给予我们帮助和指导的老师表达深深的谢意,是你们的支持与鼓励,让我们的研究得以顺利进行。最后,感谢所有项目组的成员,你们的存在让此次研究之旅更加充实和有意义。
全国大学生创新创业训练项目,项目编号:S202310618001。