1. 引言
列车司机的规范驾驶操作对于保障列车运行安全至关重要,异常的驾驶行为,诸如接打电话、吸烟、玩手机等,不仅对列车运行安全构成威胁,而且已成为造成重大交通事故的主要因素之一[1]。因此,对列车司机的驾驶行为进行异常行为检测具有至关重要的意义。
列车司机异常行为的检测方法主要有传统检测方法和基于深度学习检测方法。传统检测方法主要依赖监测驾驶员的生理信号和车辆传感器来识别司机的异常状态,包括心电图[2]、脑电图[3]和眼电图[4]等生理信号检测,以及车辆运动状态(如加速度、刹车等)信息[5],上述方法在处理复杂环境下的异常行为检测时准确性较低[6]。随着深度学习方法在计算机视觉应用方面的迅猛发展,基于视频序列的深度学习行为检测方法逐渐成为主流,主要包括基于图像序列[7]、基于双流信息融合[8] [9]和基于人体骨架序列[10]等方法,基于图像序列的方法易受到光照和遮挡等因素的干扰[11],而基于双流信息融合的方法则面临数据复杂性和处理难度较大的挑战[12],人体骨架序列作为一种拓扑表示[13]方式,在面对复杂环境、不同人体尺度和运动速度等变化时具有数据结构简单、计算高效以及数据获取准确等优势[14] [15]。因此,骨架数据被越来越多用于行为检测。Li等[16]设计了一种新的骨架数据表示,并通过卷积神经网络(Convolutional Neural Network, CNN)进行行为检测,解决了直接采用原始驾驶图像进行异常行为检测存在的特征不显著和数据量庞大的问题;Yin等[17]将2D人体姿态估计网络与残差网络(Residual Network, ResNet)融合,实现了司机异常行为检测;Morais等[18]利用动态骨架特征将骨骼运动分解为全局身体姿态和局部身体姿态,实现了离群点检测性能,减少了模型对骨架数据中单一关节点的过度关注;Song等[19]提出了一个端到端的空间和时间注意力模型,通过长短期记忆网络(Long Short-Term Memory, LSTM)和递归神经网络(Recurrent Neural Network, RNN)选择性地关注每个帧间骨架上的变化关节点信息,并对不同帧间的骨架数据给予不同的关注度,实现了结合时空信息对司机异常行为检测;Yan等[20]设计了一种骨架序列的动态骨架模型,符合人体关节连接的自然性和时间上的连续性,并将图卷积模块(Graph Convolutional Network, GCN)和时域卷积模块(Temporal Convolutional Network, TCN)应用到网络模型中,提出了ST-GCN模型。
综上所述,在异常行为检测领域,传统方法大多直接采用复杂的图像信息进行检测,面临数据复杂和处理难度较大问题[21];基于深度学习的方法取得了一定的成就,但在处理列车司机驾驶过程中的光照、遮挡等噪声问题时,仍然面临时空信息难以充分利用的挑战[22]。因此,本文在ST-GCN模型的基础上提出了基于时空图注意力和多时间尺度时域卷积网络(ST-GAT)的列车司机异常行为检测模型。首先,利用姿态估计算法[23]提取骨架数据,并通过构建骨架时空图[20]实现对连续帧图像中骨架数据的时空信息整合。在模型的设计上,针对GCN模块存在的空间特征提取能力不足问题,引入了GAT模块[24],通过动态图注意力机制提升模型对空间信息的提取能力。此外,为解决TCN模块感受野不灵活、无法检测不同时间尺度的问题,本文设计了一种MS-TCN模块,以提取不同时间尺度下的时序特征,从而扩大模型的感受野,提高了不同时间尺度下骨架序列的信息融合能力。最后引入交叉熵损失函数加快模型收敛速度。
2. ST-GCN行为检测网络
ST-GCN是一种时空信息检测模型,专为基于骨架数据的行为识别任务而设计,通过GCN和TCN的结合,可以有效捕获骨架数据中的时空关系[19],将人体骨架动作视作图结构,其中每个节点代表身体的一个关键点。在ST-GCN的架构中,图卷积负责提取骨架节点之间的空间特征,而时间卷积则用于捕捉这些节点随时间的动态变化。这种结构使得ST-GCN能够更加高效和准确地理解和分析人体动作[10],能够直接从骨架数据中学习复杂的时空特征[25],而无需依赖于人工设计的特征提取方法。ST-GCN的网络结构如图1所示。
Figure 1. ST-GCN network architecture
图1. ST-GCN网络结构
ST-GCN网络结构包含GCN模块和TCN模块,每个模块之后都进行了归一化和激活函数处理,能够消除数据间的差异和提高模型的泛化能力,然后通过池化操作对特征进行下采样,并输入全连接层进行特征整合,最后通过softmax分类器对输入的骨架序列进行行为分类。
3. 基于ST-GAT的列车司机异常行为检测模型
基于ST-GAT的列车司机异常行为检测模型如图2所示。采用时空特征信息相结合的检测方法,骨架时空图中的空间特征信息采用GAT模块进行提取,时序特征信息利用MS-TCN模块进行提取,通过综合时空特征信息能够更全面地理解骨架数据的时空关系[19],从而更有效地进行异常行为检测。
图2中,首先从列车司机的监控视频中采集异常行为的视频帧,预处理后利用姿态估计算法从视频帧中提取列车司机的骨架数据;然后,以骨架数据为基础构建骨架时空图,该图不仅描绘了列车司机的动作轨迹,还整合了连续图像帧中的时空信息;此后,将构建的时空图数据输入ST-GAT网络模型,通过GAT模块对时空图的空间特征进行提取,并利用MS-TCN模块对不同时间尺度下时空图进行时序特征提取,经过归一化处理后,把提取到的时空特征进行元素相加;最后,将元素相加得到的特征向量通过池化和全连接处理后输入softmax分类器,最终输出列车司机异常行为的检测结果。
Figure 2. Train driver abnormal behavior detection model based on ST-GAT
图2. 基于ST-GAT的列车司机异常行为检测模型
3.1. 骨架时空图
首先利用姿态估计算法从视频帧中获取列车司机的骨架数据,所得骨架关节点数据通常是以每帧中每个人体关节点的二维坐标来表示,通过将这些关节点连接起来形成单帧的人体骨架数据[11],可视化后如图2中骨架时空图的第一帧所示。骨架时空图第一帧中1~17各关节点依次为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝、右踝。
首先构建一个具有N个节点和T帧的无向时空图
,其中,V表示骨架时空图中所有关节点集合,E表示骨架时空图中所有骨架边集合。关节点集
,其中
表示第
帧上第
个关节点。边集E是由两个子集构成,第一个子集
描述帧内相邻节点的骨架边连接,表示为
,其中
表示
帧上第
个关节点;第二个子集描述帧间对应关节点的骨架边连接,表示为
,其中
表示第
帧上第
个关节点。所以在构建骨架时空图过程中,不仅要连接帧内相邻关节点,还要连接相邻帧之间的对应关节点,以形成包含空间和时间信息的骨架时空图,如图2中骨架时空图所示。
3.2. GAT模块
传统异常行为检测方法通常采用固定权重方式进行关节点特征提取,难以充分挖掘不同节点之间的空间信息[11]。同时,实际复杂环境中存在多样的光照、遮挡等噪声,对骨架数据的准确性造成干扰[22]。为解决上述问题,引入了GAT模块,通过动态关注机制使模型能够在不同关节点之间的关系上实现动态聚焦。GAT模块通过学习动态关注权重,提升模型适应不同节点之间空间关系的灵活性,从而更准确地捕捉骨架数据的运动状态和姿势。GAT模块在空间信息提取方面具有显著优势,相较于固定权重的关节点特征提取,其动态关注机制使模型更灵活地适应不同节点之间的空间关系,有助于更准确地理解骨架数据的运动特征。此外,GAT模块在处理骨架时空图数据时表现出一定的鲁棒性,通过动态调整对局部信息的关注度,有效减轻光照、遮挡等噪声对模型训练的不利影响。这为模型在复杂环境中更为可靠地执行异常行为检测任务提供了重要支持。GAT模块的结构如图3所示。
Figure 3. GAT module
图3. GAT模块
GAT模块构建过程如下:
首先设置给定节点为
,
是节点
的邻居节点,
表示输入的一组节点特征,
表示输出一组新的节点特征。
1) 对节点
,逐个计算它的邻居节点
和它自己的相似系数
为:
(1)
式中:
是一个通过单层前馈神经网络实现的映射函数;
表示对节点
和邻居节点
的特征进行拼接;
是一个可学习的参数矩阵。
2) 为了使系数在不同节点之间进行比较,使用Softmax函数对注意力系数进行归一化,得到注意力系数
为
(2)
3) 根据计算得到的注意力系数
,对邻居节点的特征按照注意力系数进行加权求和,得到节点
的新特征表示
为:
(3)
4) 为了增强模型表达能力,引入多头注意力机制,对于每个节点
,计算多个注意力头结果,最后将它们拼接起来得到最终的特征表示
为:
(4)
式中:
表示注意力头的数量;
是第
个注意力头的参数矩阵。
3.3. MS-TCN模块
目前,单一时间尺度的TCN模块的感受野大小是通过单一卷积核的大小和层数来确定的,导致感受野不灵活[10],难以适应不同时间尺度下的行为检测。为了解决这个问题,引入MS-TCN模块,该模块通过使用两个具有不同卷积核大小的TCN模块来处理输入序列,有助于模型更全面地捕捉不同尺度下的时序特征,从而更好地理解行为的动态变化。由于两个TCN模块可能导致冗余问题,引入了残差结构以减少冗余并缓解梯度消失问题。
MS-TCN模块结构如图4所示。其中
表示卷积核大小,
表示膨胀底数。
Figure 4. MS-TCN module
图4. MS-TCN模块
假设该模块的输入序列为
,其中T是序列长度,
是时刻
的输入向量。使用残差结构,将输入
通过残差时空卷积层,得到输出
。残差时空卷积层的计算可表示为:
(5)
式中
是卷积核的大小,
表示卷积操作及激活函数。
上述的残差结构通过
和
的加法操作,实现了在保留原始输入信息的同时引入更多的非线性特征。这种结构在深层网络中有助于减少特征冗余和缓解梯度消失问题,从而提升模型训练效果。这种上述设计使得MS-TCN能够更全面地理解行为的动态变化,提升了模型对时序信息的表达能力。
3.4. 损失函数优化
ST-GCN网络模型采用Huber损失函数,存在训练过程对异常不敏感和收敛速度慢问题。Huber损失函数是根据预测值和真实值之间的差异,选择平方误差还是线性误差,能够更好地平衡对离群值和普通值的拟合,更适合回归任务[26]。由于列车司机异常行为检测是分类任务,模型的输出是类别的概率分布,Huber损失函数缺乏对概率分布的解释,并且其梯度相对平滑,导致训练速度较慢[27]。根据模型的任务类型和模型输出的概率分布,使用交叉熵损失函数更符合分类任务的需求[28]。另外,由于异常行为标签是以一种类别的形式表示[29],交叉熵损失函数的梯度信息更为尖锐,在反向传播时有更好的梯度传播,能够更快地收敛和更稳定的训练。本文模型交叉熵损失函数表示如下:
(6)
式中i表示类别的索引,
是实际类别i的样本的真实概率(通常为0或1),
是模型预测类别为i的样本的概率。整个损失函数的目标是最小化实际概率分布和模型预测概率分布之间的交叉熵,从而使模型更好地适应多分类任务。
4. 实验结果与分析
4.1. 实验环境与数据集
实验平台采用的显卡为NVIDIA GeForce RTX 3060,处理器为i7-9700k,内存16GB,使用GPU加速。
由于目前没有公开的列车司机异常行为检测数据集,本实验采用自采数据集,在列车司机模拟试验平台上利用正前方摄像头采集了5500个视频片段,涵盖5种异常行为,每个异常行为至少有1000个视频片段,每个片段持续约5 s。本实验标记的异常行为包括接打电话、玩手机、喝水、与人交谈、吸烟等。在自采数据集标注方面,人工标注是解决该问题的主要方式之一。本实验使用可视化的图像标注工具Labelimg,通过可视化操作对自采数据集中司机异常动作进行标注,每隔10帧随机抽取一帧关键帧,共计标记20,000张视频帧图像,并通过姿态估计模型HRNet-W32获取骨架数据。本文模型的训练,将标注好的自采数据集的70%作为训练集,30%作为测试集。
4.2. 训练的准确率和损失迭代曲线
为了有效地评估模型的训练效果,对训练模型的准确率和损失函数迭代曲线图进行了细致分析。首先,通过图5(a)的准确率迭代曲线观察,在迭代次数达到70,000次后,准确率达到了峰值0.982,这一结果表明模型在经过足够训练后能够有效地捕捉和学习输入数据的特征。其次,通过图5(b)中的损失函数迭代曲线分析,损失函数的趋势表明模型在训练过程中逐渐减小预测误差,通过反复迭代逐步学习数据的特征。
(a)准确率迭代曲线图 (b)损失函数迭代曲线图
Figure 5. Training iteration curve chart
图5. 训练迭代曲线图
4.3. 实验性能指标与分析
为了客观评价本文模型的性能,采用准确率与FLOPs进行对比实验分析。实验对比结果如表1所示。
Table 1. Comparison of detection indicators for abnormal behavior of train drivers under different methods
表1. 不同方法下列车司机异常行为检测指标对比
方法 |
FLOPS |
准确率/% |
文献[16] |
3.37 |
83.48 |
文献[19] |
5.97 |
85.36 |
ST-GCN |
16.20 |
89.47 |
本文方法 |
16.52 |
98.27 |
由表1可见,文献[16]的FLOPS和准确率相对较低,主要因为其方法直接将原始关节点坐标输入CNN进行标签预测。这种处理方式在捕捉时空信息方面效率较低,无法有效捕捉骨架序列中的复杂时空关系,导致准确率相对较低。另外,文献[19]的方法虽然在FLOPS上略高,但由于未对骨架序列进行充分处理和相应的建模,因此在处理复杂时空关系时也存在一定局限不足。相比之下,ST-GCN模型引入了骨架时空图和图卷积、时域卷积模块,相较于文献[16]和文献[19],能够更全面地捕捉骨架序列的时空信息。因此,ST-GCN在FLOPS和准确率上都取得了显著提升,凸显了骨架时空图建模和时空卷积对于提高检测性能的积极影响。而本文方法准确率和FLOPS均高于其他3种方法,这是因为采用图注意力机制能更好地提取骨架数据的空间信息,同时利用不同卷积核大小的TCN去增强模型对不同时间尺度语义信息的融合,提高了模型的准确率。为了进一步提高模型的处理速度,本文还引用了交叉熵损失函数,在保持高准确率的同时,提高了模型的FLOPS。
4.4. 模型消融实验
为直观反映出本文方法采用GAT模块、MS-TCN模块以及优化损失函数等改进点对异常行为检测模型性能提升的作用,采用消融实验进行验证,通过在基准模型上进行训练以及测试,采用准确率作为评价指标,验证其有效性。所有消融实验均采用相同的实验环境,并以相同的数据集进行训练与测试。消融实验如表2所示。
消融实验表明,在ST-GCN基础上引入GAT模块后,通过图注意力卷积增强了各关节点之间空间信息的提取能力,将网络模型的准确率由89.60%提升到94.65%;再引入MS-TCN模块,扩大模型的感受野,提高了不同时间下特征信息的捕捉能力,模型的准确率由94.65%提升到96.91%;在训练过程中选择更适合分类任务的交叉熵损失函数进行优化,最终将模型的准确提升到98.27%。本文方法相比于原ST-GCN网络模型平均准确率提升了8.8%。
Table 2. Ablation experiment
表2. 消融实验
基准模型 |
GAT模块 |
MS-TCN模块 |
交叉熵损失函数 |
准确率/% |
√ |
|
|
|
89.60 |
√ |
√ |
|
|
94.65 |
√ |
√ |
√ |
|
96.91 |
√ |
√ |
√ |
√ |
98.27 |
5. 结束语
针对列车驾驶场景下司机异常行为检测过程存在检测准确率以及效率低的问题,本文提出了一种基于骨架数据的列车司机异常行为检测方法。本文方法创新点如下:在列车驾驶场景下,利用骨架数据建模,更好理解列车司机异常行为的复杂关系和时序动态变化。在ST-GCN的基础上,引入GAT模块、设计MS-TCN模块以及优化损失函数,提高模型检测的准确率和检测效率。相较于ST-GCN模型,本文方法在准确率上取得了显著的提高,综合全类平均准确率达到了98.27%,同时FLOPS提高了2%。实验结果表明:本文方法能够有效识别列车司机的多种异常行为,包括打电话、看手机、喝水、与人交流和抽烟等异常行为,具有较好性能。未来的研究将进一步拓展该模型的适用范围,并结合其他传感器数据进行更全面的异常行为识别和预测,进一步提升列车运行的安全性。