土木在线论坛 \ 道路桥梁 \ 交通规划 \ 基于多源数据的多模式公共交通出行链构建

基于多源数据的多模式公共交通出行链构建

发布于：2022-06-29 14:38:29 来自：道路桥梁/交通规划 [复制转发]

“

写在前面：

公共交通乘客出行链构建是公共交通出行需求分析的基础，也是推进城市公共交通系统融合发展和可持续运营的关键。现有研究大多关注单一模式出行链，较少考虑多源数据环境下多模式公共交通出行链构建，无法进行各模式之间的转移和换乘客流特征的分析。基于轨道交通、BRT和公共汽车交通三网融合数据进行乘客出行链构建，数据类型主要有公交IC卡、车载GPS等。具体方法包括基于时间匹配的上车站点推算、基于出行链假设的下车站点匹配和基于换乘规则的个体出行链推算。最后，使用厦门市公共交通数据验证了该方法的有效性，同时讨论了匹配阈值对匹配精度的影响。

张懿木

同济大学城市交通研究院在读硕士研究生

研究背景

公交优先战略是城市交通可持续发展的必然选择，而公共交通乘客出行链特征分析是精准把握公共交通出行需求，切实有效推进公交优先战略的关键。传统获取公共交通个体出行链数据通常采用人工抽样调查 ^[1] 以及模型反推 ^[2] 的计算方法。随着公交IC卡系统、车载GPS设备的广泛应用，基于多源数据的大规模公共交通乘客个体出行链构建和特征规律挖掘成为可能 ^[3] 。国内外相关研究侧重公共汽车、轨道交通等单一模式的公共交通乘客出行链构建和特征规律的挖掘，主要集中在乘客上、下车站点的匹配，以及通过设置换乘时空阈值进行公共交通出行链推断。各国城市公共交通数据结构有所不同，部分城市公共交通乘客上车数据包含卡号、时间、线路地点等信息 ^[5] ；对于不包含站点信息的数据，文献[6]基于巴西圣保罗市IC卡刷卡数据、GPS数据以及线路站点数据构建时空匹配算法，实现了公共汽车乘客上车站点的识别。国内研究中，文献[7]较早阐述了IC卡与GPS数据融合推算上车站点的原理，文献[8]以北京市单日单条公共汽车线路的IC卡和GPS数据验证了该方法的可行性。其他相关研究从公共交通模式 ^[9] 、时间跨度 ^[10] 等方面对该方法的应用场景进行了拓展。在下车站点推断方面，文献[11]基于出行链假设对伦敦公共汽车乘客下车站点进行推算，并结合实际出行调查数据验证了推算方法的有效性。针对单日仅一次出行数据的下车站点识别问题，有研究利用历史多日出行 ^[12] 特征进行下车站点推算。近年来，基于下车站点、下车时间推算结果，通过设置换乘时间 ^[13] 、换乘距离 ^[14] 等换乘约束，可以实现乘客出行链的构建。

从现有研究来看，基于IC卡、GPS等多源数据的单一公共交通方式(简称“单模式公共交通”)的乘客出行链构建方法已较为成熟，但对采用多种公共交通方式(简称“多模式公共交通”)的乘客出行链构建研究较少。随着中国城市公共交通系统的不断发展，特别是在大城市快速公交(BRT)、轨道交通网络规模不断增加的情况下，如何有效推进公共交通系统内部不同模式之间的融合发展，提升城市公共交通系统的可持续运营能力，是最为紧迫的问题。通过多源数据构建多模式公共交通出行链，进而对不同公共交通模式的运行特征和换乘行为进行研究，是推进公共交通系统多模式融合发展的关键。

本文基于轨道交通、BRT、公共汽车系统的IC卡和GPS数据等多源数据，提出公共交通乘客多模式出行链推算方法。以厦门市公共交通系统为例进行方法验证，并对匹配率的变化、匹配阈值的合理性和数据采集方式的局限性进行讨论。

数据基础

数据来源于公共交通系统三网数据，包括公共汽车系统、BRT系统以及轨道交通系统数据，各公共交通方式数据属性如表1所示。

表1 数据形式

公共汽车系统数据包括设备连接表、IC卡刷卡数据、GPS数据、发车班次数据、线路站点GIS数据。刷卡数据记录乘客上车时IC卡刷卡信息，每次刷卡均会在设备中产生一条刷卡记录。GPS数据记录公共汽车行驶过程中的时空间状态信息。发车班次数据为公共汽车离开起点和进入终点站的到发时刻表。线路站点GIS数据记录当月公共汽车开行线路及途经站点顺序、位置信息。

轨道交通数据与BRT数据结构类似，包括闸机验票数据和线路站点数据。闸机数据在乘客每次进站或出站验票时产生，记录乘客进出站活动信息。站点数据记录了BRT线路站点的详细信息，作为乘客进出站信息的补充。

多模式公共交通出行链构建

轨道交通与BRT采用闸机进出站方式，易于匹配进出站信息。具体步骤包括：1)基于刷卡站点编号字段连接闸机数据与站点数据，为原始数据添加具体的站点名称、经纬度等信息；2)将一天中同一卡号的刷卡记录按刷卡时间进行排序，连接两条相邻刷卡记录，若第一条进出站类型为进站，第二条为出站，即可组成一次出行记录。至此完成轨道交通与BRT乘客的出行信息匹配。公共汽车的出行信息匹配则涉及上车站点、下车站点以及下车时间多个阶段的推算。

基于时间匹配的上车站点推算

对于上车站点推算，采用基于时间的匹配算法。其基本原理是利用时间属性关联IC卡与GPS数据，从而匹配刷卡数据的空间信息。首先根据车辆到发时间，匹配GPS数据与IC卡数据对应的线路班次信息。在此基础上，按时间最近原则匹配GPS时间与刷卡时间，获得刷卡时的空间位置信息。之后，对比线路站点空间位置确定乘客上车站点信息。算法匹配流程如图1所示。公共汽车上车站点的匹配主要包括以下三个步骤。

图1 公共汽车上车站点匹配算法

1）基于路单信息的车次匹配。

为了减少计算量，提高查询效率，同时便于下车时间的匹配处理，本文利用发车班次信息匹配IC卡数据和GPS数据对应的车次。对于某一条线路，一辆公共汽车在相邻两趟发车之间存在一定的休息时间。考虑到乘客在车辆发车前提前上车刷卡的情况，将公共汽车上一班次的到站时间至下一班次的发车时间作为乘客在首站上车的时间范围。利用到站时间和发车时间的区间匹配IC卡数据及GPS数据对应的车辆班次。

2）基于GPS数据的刷卡位置匹配。

利用GPS数据与IC卡数据的最近时间差进行匹配，寻找刷卡记录对应的最近GPS空间位置。考虑乘客可能存在先上车后刷卡行为，实际上车刷卡时间与上车时的GPS空间位置可能不一致，因此采用近似匹配GPS时间与刷卡时间。基于路单匹配结果，通过“车辆编号”“线路”“班次”字段进行关联，选择与刷卡数据时间最为接近的GPS点作为当条刷卡记录产生时的GPS数据，从而确定每一条刷卡记录的GPS空间位置(见图2)。

图2 上车站点时间信息匹配

理论上每一条刷卡数据均能获得对应的GPS位置信息。为了保证匹配结果的准确性，需要设置一定的时间差阈值避免数据时间间隔过大的错误匹配。考虑到站点位于某相邻GPS点集的必然性，时间阈值

式中： N _i 为第 i 条线路的GPS点数量/个； L 为线路条数/条； T _n 为某条线路所记载的GPS数据时间点； T _n ₊₁ - T _n 为相邻GPS数据时间间隔/s；max _i ( T _{n +1} - T _n )表示第 i 条线路所记载GPS数据的最大时间间隔/s。

3）基于线路站点数据的上车站点匹配。

经过上述匹配过程，得到每一条IC卡数据产生时的线路信息及最近的空间位置信息，如图3所示。结合线路站点数据，以线路以及行驶方向属性进行关联，并按照空间距离最近的原则确定刷卡记录最近的公共汽车站。

图3 上车站点空间匹配

该过程中需要考虑实际GPS轨迹数据与线路站点相对距离，设置距离阈值以提高匹配结果准确性。考虑到公共汽车行驶轨迹，站点一定位于某相邻GPS点对之间，距离阈值

式中： avg _i ( T _{n +1} - T _n )为第 i 条线路记载的所有GPS数据平均间隔/m；max _i ( speed )为第 i 条线路所记载的最大行驶速度/(m·s ^-1 )。

基于出行链假设的下车站点推算

在上车站点推算基础上，利用公共交通系统三网数据，基于出行链假设对单日有多次公共交通出行的乘客公共汽车下车信息进行完善，匹配流程如图4所示。

图4 基于三网融合数据的公共汽车下车站点匹配算法

本文采用基于出行链的下车站点推算。对于单日有多次公共交通出行的下车站点推算，基于以下3个出行假设：1)“下一次出行”假设，同一乘客在同一天中公共交通乘车的终点大多接近下一次乘车的起点；2)“最后一次出行”假设，同一乘客在同一天中最后一次乘车的终点接近同一天第一次乘车的起点；3)“返程出行”假设，同一乘客在同一天中如果连续两次乘车路线相同，方向(上行和下行)相反，则第一次乘车的终点为第二次乘车的起点，第一次乘车的起点为第二次乘车的终点 ^[15] 。推算过程如图5所示。

图5 基于出行链假设的下车站点推算模

对于非最后一次出行，首先通过公共交通三网出行链寻找该乘客下一次公共交通出行记录。在图5中， j 表示某位乘客公共交通出行记录次序，第 j 次出行的下车站点应靠近第 j +1次出行的上车位置，获得第 j +1次上车站点。接着通过“线路”“班次”“车牌号”关联上车站点推算得到的GPS线路车次数据，按照距离最近的原则匹配本次出行最有可能的下车位置，对应的GPS数据采样时间即为该班次到站时间，可作为乘客下车时间。而最后一次出行的下车站点依据出行链假设与当日首次出行的上车站点关联，其他步骤同非最后一次出行一致。

基于换乘规则的乘客出行链推算

匹配得到乘客单次上下车信息后，为了构建出行链，还需要对乘客换乘行为进行判别。

1）乘客出行阶段判断。

该步骤的目的是对公共交通乘客出行阶段进行判断，即判断单日相邻公共交通出行是否属于同一次出行的不同出行阶段。如果乘客单日有多次公共交通出行，则相邻两次出行间可能存在换乘，设置一定的换乘阈值作为判别条件。

考虑到不同交通方式的特性，不同公共交通形式之间换乘阈值的设置有所区别，换乘阈值根据研究城市的实际调查情况确定。在下车站点及时间匹配的基础上，根据相邻公共汽车出行记录，计算本次下车时间与下一出行的上车时间的换乘时间 T _t ，判别相邻两次乘车的时间间隔是否小于换乘阈值 t _t ，如果满足，则该相邻出行为同一次出行的不同出行阶段。

2）出行链构建。

基于上述乘客出行阶段的判断，对乘客出行链进行构建。将乘客各次公共交通上下车信息按照出行次序、出行阶段排序，得到乘客出行链，如表2所示。其中，出行次序表示乘客乘坐公共交通从起点到达目的地的一次完整出行，而一次完整出行中乘客可能存在换乘的情况，即一次完整出行由一个或者多个出行阶段组成。

表2 乘客出行链构建示意

注：站点的序号设置是以线路为单位分别排序，因此不同线路之间的同一站点序号不同。

方法验证

匹配结果

本文利用厦门市公共交通数据进行验证。收集厦门市2018年1月8日公共汽车、BRT、轨道交通系统的数据，包括IC卡刷卡数据、GPS数据、线路站点数据、公共汽车发车班次数据以及BRT、轨道交通乘客进出站数据。数据预处理后获取公共汽车刷卡记录112.67万条，BRT进出站记录15.66万条，轨道交通进出站数据3.44万条。

各阶段匹配情况如表3所示。轨道交通与BRT的匹配率均大于90%。数据损失主要源于原始数据记录缺失或异常，例如同一卡号相邻交易类型相同，或者原始数据进出站数据量不一致，无法完整匹配。公共汽车出行上车站点匹配率为88.7%，数据损失主要源于不同数据采集系统间的字段信息不完全匹配。公共汽车下车站点匹配率为73.4%，数据损失主要来源于两个方面：1)13.3%的乘客当天仅一次公共汽车出行，无法匹配下车站点；2)IC卡出行数据按照卡号、上车时间排列后，本次乘车站点与下一次乘车站点相同的乘客以及最后一次公共交通出行上车站点与当天第一次公共交通出行上车站点相同的乘客共占2%，该类型数据无法基于出行链假设的推算得到合理的出行信息。公共汽车出行下车时间的匹配率为69.6%，数据损失主要源于不同数据源之间的信息不完全匹配，例如GPS行驶数据不完全处于路单数据记录的时间范围内。

表3 基于多源数据的公共交通上下车站点匹配结果

阈值分析

时间阈值Δ t 和距离阈值Δ s 对上车位置、上车站点匹配率的影响如图6所示。上车位置匹配率随着时间阈值Δ t 的增大逐渐提高，受限于不同数据源车辆编号的不一致，上车位置匹配率上限为92%。上车站点匹配率随着距离阈值Δ s 的增大逐渐提高，受限于不同数据源线路信息不一致，上车位置匹配率不超过91%。考虑多源数据之间匹配的合理性，经过计算得到Δ t =150 s，Δ s =520 m，上车位置匹配率与上车站点匹配率均超过85%。

图6 阈值设置对匹配率的影响

根据厦门市实际调查情况获得各交通方式的平均换乘时间：公共汽车换乘BRT为4.1 min，公共汽车换乘轨道交通为5.9 min，公共汽车换乘公共汽车为10.7 min。据此设置不同换乘阈值并得到多阈值匹配结果，其中公共汽车无换乘直接到达占总体公共交通出行的68.1%，涉及公共汽车交通的全部出行占82.3%(见表4)。可见，公共汽车交通仍是厦门市公共交通系统的主要方式，其次为BRT出行，轨道交通尚处于运营初期，客流占比较小。

表4 工作人口居住分布比例(单位：%)

由表4可见，多阈值匹配与单一阈值匹配的客流占比差别不大。但基于该匹配结果计算得到公共汽车系统换乘系数存在一定差别。多阈值匹配下公共汽车系统换乘系数为1.17，更接近厦门市居民出行调查结果1.18，而单一阈值匹配下公共汽车换乘系数仅为1.14。另外，单一阈值匹配过程中，其阈值的选择也是匹配过程中的难点：阈值过小，无法充分识别换乘出行；阈值过大，不同出行方式之间的换乘识别不准确。因此，考虑本研究区域公共交通运行情况，采用多阈值匹配更为合理。

数据局限性

现阶段由于采用手机二维码支付的乘客逐渐增加，而该数据并未列入本文研究范围。因此基于IC卡数据存在覆盖人群有限的问题，导致分析结果可能存在偏差。从2020年1月厦门市公交和轨道集团统计的支付方式来看，有47%的轨道交通出行采用手机支付方式，而IC卡支付方式仅占轨道交通出行量的28%；公共汽车出行支付类型所占比例与轨道交通相反，60.84%的乘客仍采用IC卡支付，采用手机支付的占25.34%(见图7)。此外，本文仅采用厦门市2018年1月8日单日的公共交通数据，后续可利用多日数据对上述方法进行优化。

图7 厦门市轨道交通及公共汽车出行不同支付方式占比

写在最后

本文提出一种基于IC卡、GPS等多源数据的公共交通乘客多模式出行链构建方法。主要利用IC卡信息融合公共汽车、BRT、轨道交通的乘客刷卡数据，采用基于时间匹配的上车站点推算、基于出行链假设的下车站点匹配以及基于一定换乘规则的乘客出行OD推断三种算法实现出行链的构建。以厦门市为例进行方法验证，能够较为准确地反映市民公共交通出行特征。

该方法适用于中国多数城市，能够实现公共交通系统不同模式的用户出行特征分析，以及转移客流和换乘客流的特征分析，有助于推进城市公共交通系统融合发展和可持续运营。然而随着手机支付的不断普及，基于IC卡数据的分析方法可能存在抽样偏差，后续需进一步研究基于IC卡和手机支付的公共交通乘客的出行特征差异性，完善多模式公共交通数据融合和出行链构建方法。

参考文献(上滑查看全部)：

[1] 陈素平，陈学武，杨敏. 基于小票法的公交线路客流OD分析方法[J]. 交通信息与安全，2009，27(1)：11-14.

Chen Suping, Chen Xuewu, Yang Min. OD Matrix of Transit Passenger Flow Based on Note Survey[C]. Journal of Transport Information and Safety, 2009, 27(1): 11-14.

[2] 赵淑芝，张晓亮，刘华胜，等. 基于库仑定律的公交站点OD矩阵生成研究[J]. 华南理工大学学报(自然科学版)，2014，42(2)：96-102.

Zhao Shuzhi, Zhang Xiaoliang, Liu Huashheng, et al. Investigation into Generation of Transit Station OD Matrix Based on Coulomb's Law[J]. Journal of South China University of Technology (Natural Science Edition), 2014, 42(2): 96-102.

[3] 周晶，张伦珂. 利用IC卡数据估计公交OD矩阵的模型及算法[J]. 系统工程理论与实践，2006(4)：130-135.

Zhou Jing, Zhang Lunke. An Origin-Destination Matrix Estimation Model from Smart Cards for the Transit Network and Its Solution Algorithm[J]. System Engineering Theory and Practice, 2006(4): 130-135.

[4] Tao S, Corcoran J, Mateo B I, et al. Exploring Bus Rapid Transit Passenger Travel Behaviour Using Big Data[J]. Applied Geography, 2014(53): 90-104.

[5] Barry J, Newhouser R, Rahbee A, Sayeda S. Origin and Destination Estimation in New York City with Automated Fare System Data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2002, 1817: 183-187.

[6] Farzin J M. Constructing an Automated Bus Origin-Destination Matrix Using Farecard and Global Positioning System Data in So Paulo, Brazil[J]. Transportation Research Record Journal of Transportation Research Board, 2008, 2072: 30-37.

[7] 徐建闽，熊文华，游峰. 基于GPS和IC卡的单线公交OD生成方法[J]. 微计算机信息，2008(22)：221-222+218.

Xu Jianmin, Xiong Wenhua, You Feng. The Method of Singal-Line Public Transportation OD Base on GPS and Intelligent Card[J]. Microcomputer Information, 2008(22): 221-222+218.

[8] 陈绍辉，陈艳艳，赖见辉. 基于GPS与IC卡数据的公交站点匹配方法[J]. 公路交通科技，2012，29(5)：102-108.

Chen Shaohui, Chen Yanyan, Lai Jianhui. An Approach on Station ID and Trade Record Match Based on GPS and IC Card Data[J]. Journal of Highway and Transportation Research and Development, 2012, 29(5): 102-108.

[9] 胡继华，高立晓，梁嘉贤. 基于交通大数据的公交线路OD矩阵推断方法[J]. 科学技术与工程，2017，17(11)：309-314.

Hu Jihua, Gao Lixiao, Liang Jiaxian. An Inference Method of Public Transit OD Matrix Based on Traffic Big Data[J]. Science Technology and Engineering, 2017, 17(11): 309-314.

[10] Zhao J. The Planning and Analysis Implications of Automated Data Collection Systems: Rail Transit OD Matrix Inference and Path Choice Modeling Examples[J]. Environmental Science & Technology, 2004, 39(23): 9309-9316.

[11] Wang W, Attanucci J P, Wilson N H M. Bus Passenger Origin-Destination Estimation and Related Analyses Using Automated Data Collection Systems[J]. Journal of Public Transportation, 2011, 14(4): 131-150.

[12] 崔紫薇，王成，陈德蕾，等. 基于历史出行记录扩充的公交乘客下车站点推算方法[J]. 南京大学学报(自然科学)，2020，56(2)：227-235.

Cui Ziwei, Wang Cheng, Chen Delei, et al. Alighting Stop Determination of Transit Passengers Based on Expanded History Trip Records[J]. Journal of Nanjing University of Technology (Natural Science), 2020, 56(2): 227-235.

[13] Seaborn C, Attanucci J P, Wilson N H M. Using Smart Card Fare Payment Data to Analyze Multi-Modal Public Transport Journeys in London[J]. Transportation Research Record: Journal of the Transportation Research Board, 2009(2121): 55-62.

[14] Munizaga M A, Palma C. Estimation of a Disaggregate Multimodal Public Transport Origin-Destination Matrix from Passive Smartcard Data from Santiago, Chile[J]. Transportation Research Part C: Emerging Technologies, 2012, 24: 9-18.

[15] Mosallanejad M, Somenahalli S V C, Mills D. Origin-Destination Estimation of Bus Users by Smart Card Data[C]//Geertman S, Zhan Q, Allan A, Pettit C. International Conference on Computers in Urban Planning and Urban Management. Cham: Springer, 2019: 305-320.

出行

0人已收藏
0人已打赏
免费
1人已点赞
分享

复制链接新浪微博微信扫一扫

全部回复（0 ）

只看楼主我来说两句抢沙发