1. 引言
当前随着各大城市的蓬勃发展,城市跨度不断增大,高速公路通勤车辆逐渐增多,引起高速交通需求不断增大,导致高速拥堵现象时常发生。在大量的高速ETC卡口数据中蕴藏着海量的高速公路交通运行特征信息,通过某些方法对高速数据进行挖掘,可以了解到高速通勤通道交通流的特征,解决高速拥堵问题。
目前国内外对于道路通勤的研究还主要注重于高速公路通勤者识别,如马新露等[1]提取并定义研究了时段内单次出行或仅在周末出行的车辆,然后以自然周为周期,从出行强度、出行时间维度、出行空间维度3个方面构建了剩余车辆出行量化指标,最后,利用K-means++算法对车辆进行了聚类;沈丽萍等[2]对城市轨道交通客流进行了分析;刘家玮[3]利用AFC数据,从出行强度、时间维度、空间维度及卡类型4个方面构建了指标,运用两步聚类法将乘客分为4类,基于分类结果测算优惠票价对每类乘客的转移效果;王波[4]利用手机信令数据分析经过拥挤断面的外围轨道交通站点1 km范围内居民的职住空间分布,得出这些外围站点周边居民70%以上在中心城区就业、早高峰集中乘坐轨道交通前往中心城区上班的结果,并分析了居民通勤的主要通道分布情况;张天然[5]重点分析了上海市中心城区及周边地区的职住空间关系及通勤距离,提出了职住通道平衡概念,并分析了职住通道不平衡地区与轨道交通拥挤程度的关系,指出土地利用布局优化对职住通道平衡的重要性;而对于高速通勤通道识别的研究还较为缺乏。
本文以济南市ETC卡口数据、ETC卡口基础信息数据及高速公路道路网数据,从全局角度对通勤车流的特征进行研究,根据通勤车流出行的时间特征建立模型来识别高速公路日常通勤车辆,并进一步对济南市高速通勤通道的时空特征进行分析,对于提高城市交通系统效率和缓解交通问题具有重要的意义。
2. 研究区及基础数据
2.1. 研究区域概括
本研究对象为济南市高速公路。截至2023年7月,济南全市公路通车总里程达到18,294公里。其中,高速公路通车里程达795公里,京台高速济南至泰安段(改扩建)、济南至高青高速、大西环3个项目建成通车,高青至商河、济南至微山等6条高速公路相继开工,济潍高速、大北环等项目加快推进,“二环一联十六射”高速公路网加快形成。济南市高速公路分布图见图1。
注:该底图来源于ArcGIS 10.2中国地图彩色英文版。
Figure1.Schematic diagram of study area-Jinan City
图1.研究区–济南市示意图
2.2. 数据来源
本文基于济南市某月高速ETC卡口数据,共计约1200万条,本文高速路网数据利用Python爬取相关济南市路网数据。高速ETC收费数据数据格式见表1。
Table 1.Data format of high-speed ETC toll data
表1.高速公路ETC收费数据数据格式
字段名称 |
说明 |
ETC卡口名称 |
车辆通过的高速卡口名称 |
通过时间 |
车辆本次通过卡口的时间 |
车牌号 |
车辆的车牌信息(鲁A……) |
车型 |
客一:1;客二:2;客三:3;客四:4;货车:10;货一:11;货二:12;货三:13;货四:14;货五:15;专一:21;专二:22;专三:23;专四:24 |
车种 |
普通车:0;军警车:8;紧急车:10;绿通车:21;应急车:26 |
3. 研究方法
本文在研究通勤流识别的过程中套引用ETC卡口车流数据、ETC卡口基础信息数据及高速路网数据,基于模糊聚类的方法进行收费站点类型识别,同时基于改进的K均值聚类法对通勤者进行识别,结合识别出的通勤者及高速收费站点类型对通勤流的出行特征进行分析。其分析识别流程见图2。
Figure2.ETC bayonet position diagram and data processing diagram
图2.ETC卡口位置示意图及数据处理图
3.1. 高速通勤通道识别聚类变量
对于高速通勤类型分类,按照其特点、高速客流时序特点情况进行分类,本文选取的ETC卡口数据聚类指标及其特征见表2。
Table2.High-speed toll station data clustering index description
表2.高速收费站点数据聚类指标描述
一级指标 |
二级指标 |
指标描述 |
高峰通行指标 |
早高峰平均小时通行车辆数占比(F2) |
早高峰卡口平均小时车流量与全天卡口平均小时车流量之比 |
晚高峰平均小时通行车辆数占比(F3) |
晚高峰卡口平均小时车流量与全天卡口平均小时车流量之比 |
高峰平均小时通行车辆数占比(F1) |
高峰卡口平均小时车流量与全天卡口平均小时车流量之比 |
平峰通行指标 |
平峰平均小时通行车辆数占比(F4) |
平峰卡口平均小时车流量与全天卡口平均小时车流量之比 |
3.2. K-Means++聚类
K-means++聚类算法
本文采用了改进的K均值聚类,K均值聚类(K-means clustering)是一种常见的无监督学习算法,用于将数据点分成具有相似特征的簇。它是数据挖掘和机器学习中最常用的聚类算法之一。K均值聚类旨在最小化每个数据点与其所属簇的中心点(质心)之间的距离,从而实现聚类。
在K-means算法中,聚类中心初始化选择对最终的聚类结果有着很大的影响,而Arthur等[6]在K-means的基础上提出了K-means++聚类算法,其聚类中心初始化的基本思路是,使初始的聚类中心之间的相互距离较远;K-means++算法首先随机选取一个样本作为第一个聚类中心c1,然后对每一个数据xi,计算与其最近一个聚类中心的距离,定义为D(x);D(x)值越大,意味着该数据被选为下一个聚类中心的概率越大,利用轮盘法得到下一个聚类中心,重复上述步骤,直至完成K个聚类中心的初始化。
本文采用K-means++聚类算法对数据进行分类其算法步骤可表示为:
1) 通过轮盘法重复步骤,选出初始聚类中心
;
2) 计算每一个对象到每一个聚类中心的欧氏距离
:
(1)
式(1)中,
为第j个聚类中心;
为第j个聚类中心的第t个属性;cj为第j类样本的个数;
为第i个数据的值;
为第i个数据的第t个属性。
3) 针对每个类别,重新计算它的聚类中心(即属于该类的所有样本的质心):
(2)
式(2)中,
为第j个聚类中心;cj为第j类样本的个数;
为第i个数据的值。
4) 重复上面2)、3)两步操作,直到达到某个中止条件(迭代次数、最小误差变化等)。
4. 研究结果
4.1. 收费站点分类结果
对ETC卡口数据进行筛选及错误数据消除。
通过对筛选后的ETC数据采用手肘法及K-means++聚类方法对其进行聚类分析。聚类结果分析箱型图见图3,出行时间分布图见图4。
由图3、图4可得,从卡口车辆指标来看,在第一类卡口车流数据中,所有卡口的高峰时期(F1)小时行驶车辆数比值均大于1.45,50%的卡口高峰时期小时车辆数比值大于1.9;所有卡口的平峰时期(F2)行驶车辆数比值均小于0.85;所有卡口的早高峰时期(F3)小时行驶车辆数比值均大于1.25,70%的卡口早高峰行驶车辆比值大于1.6;所有卡口的晚高峰时期(F4)小时行驶车辆数比值均大于1.0,80%的卡口早高峰行驶车辆比值大于1.55;而相较于第二类及第三类,第一类的大部分卡口的高峰小时车辆数比值大于其他两类,平峰比值小于其他两类,同时第二类及第三类卡口在数据上相差不大。由图3可得,从三类卡口车辆出行时间来看,第一类卡口车辆出行时间明显出现双坨型分布,两个驼峰均位于高峰出行时间段内,另外两类的出行时间较为平均。综上所述,第一类卡口车辆符合常规通勤的特征,其他类卡口车辆通勤车辆特征不明显,故将第二类、第三类车辆归为非通勤型ETC卡口。
Figure 3.Box diagram of F1, F2, and F3 eigen values of 3 types of bayonets
图3.3类卡口的F1、F2、F3特征值箱形图
Figure4.Travel time distribution map of three types of bayonets
图4.3类卡口的出行时间分布图
4.2. 出行空间特征
1) 通勤型路段空间分布特征
通勤型路段空间分布图见图5。
由图5可以看出,济南市通勤通道整体呈现“镜像C”。其中涉及的主要道路为济南北部G35、东部及南部的G2001,同时还涉及S8105华山枢纽至崔寨西枢纽路段和G2的曹范立交及港沟立交,其中除S8105崔寨南收费站至崔寨西枢纽路段和G2的曹范立交至彩石立交为单向通勤道路外,其他路段均属于双向通勤路段,S8105崔寨南收费站至崔寨西枢纽路段的通勤方向为崔寨西枢纽–崔寨南收费站方向,G2的曹范立交至彩石立交的通勤方向为彩石立交–曹范立交方向,通过对识别出的通勤通道及济南市职住定位对比发现,其通勤通道大多穿梭于城市主要居住区、工作区及连接城市快速路的枢纽附近。
(a)
(b) (c)
注:该底图来源于ArcGIS 10.2中国地图彩色版及中国地图灰色版。
Figure5.Spatial distribution maps of commuter channels in Jinan City: (a) Overall distribution map of commuter channels in Jinan City; (b) Visualization map of the first commuter channel; (c) Visualization map of the second commuter channel
图5.济南市通勤通道空间分布图:(a) 济南市通勤通道总体分布图;(b) 第一条通勤通道可视化图;(c) 第二条通勤通道可视化图
而对于京台高速分为非通勤道路的原因为济南西二环距离京台高速距离相近,且两线平行分布,而通过调查百度地图济南二环西路车流量情况,在早晚高峰期间二环西路车辆通行较为顺畅,居民大多选择二环西路通行,且京台高速属于我国连接南北重要通道,其各种车辆较为复杂,车流量较多,故将其分为非通勤型通道。
通过观察,其通勤通道大多穿梭于城市主要居住区、工作区及连接城市快速路的枢纽附近,符合通勤通道分布特征。
2) 通勤型路段流量分布特征
通勤型路段不同时段流量分布见图6。
由图6可以看出,早高峰通勤通道G35占比较多,小时车辆数均在2000辆左右,其次为G2001,大部分路段小时车辆数均在1000辆及以上,而晚高峰的车辆数在大部分路段均高于早高峰,其中G35华山枢纽至济南站段小时车辆数达到3155辆,对于平峰各通勤路段的小时车辆数相较于高峰时段车辆数相差较大,其所有路段小时车辆数均小于1900辆,且70%的路段小时车辆数低于1000辆。
(a)
(b) (c)
注:该底图来源于ArcGIS 10.2中国地图彩色版。
Figure6.Flow distribution maps of commuter channels in different periods of Jinan City: (a) Flow distribution map of commuter channels in Jinan City in the morning peak; (b) Flow distribution map of commuter channels in Jinan City in the evening peak; (c) Flow distribution map of commuter channels in Jinan City in the flat peak
图6.济南市不同时段通勤通道流量分布图:(a) 早高峰济南市通勤通道流量分布图;(b) 晚高峰济南市通勤通道流量分布图;(c) 平峰济南市通勤通道流量分布图
5. 结论与建议
本文利用无监督识别方法识别使用高速公路路段的类型,在此基础上,进一步分析通勤路段车辆的时空分布特征。从通勤出行的角度,挖掘城市通勤快速出行廊道分布,研究高速路网与城市道路网络的关系,得出以下结论:1) 对济南市高速路段进行分类,识别出19段双向通勤型高速路段、2段单向通勤型高速路段。2) 济南市高速通勤路段时间通行特征呈现双驼峰型,在早高峰及晚高峰出行车辆较多,平峰车辆较少,符合通勤型通道车流的特征。3) 高速通勤通道呈现镜像C型分布特征,其通勤通道主要为济南北部G35、东部及南部的G2001,同时还涉及S8105华山枢纽至崔寨西枢纽路段和G2的曹范立交及港沟立交,其通勤通道大多穿梭于城市主要居住区、工作区及连接城市快速路的枢纽附近。4) 通勤通道车流量主要呈现G35高速车流量占比较高特点,其次为G2001东绕城路段车流量均在1000 辆/h以上。
在后续研究中,研究非通勤车辆的时空分布特征,进一步完善各类别车辆在高速公路上的运行状态与时空分布特征的构建与分析,进一步根据其城市收费站点分类及通勤数据得出其通勤特征,对提升高速公路交通系统的效率和缓解其交通问题具有重要的意义。
基金项目
2022年度山东省人文社会科学课题,项目名称:新型城镇下县域高速交通网与全域旅游高质量融合发展路径研究,项目编号:2022-YYGL-26。