1. 引言
随着国民经济的快速增长,铁路出行成为了人们必不可少的交通运输工具,为人们提供安全、舒适、高质量服务,在我国社会、经济、科技、物流等方面扮演着至关重要的角色 [1] 。
目前,国内铁路运输的任务日渐繁重且运输里程长,无论高铁还是普运列车,它们的车轮都作为重要的支撑及运行部件。文献 [2] 指出,在高速运行的条件下,车轮滚行于不同复杂环境下的轨道会产生不同类型的磨损,这类磨损会降低轮轨之间的附着力,从而降低列车运行时的安全性和平稳性,严重时易引发交通事故,造成不可估量的损失。因此,铁路部门在制造或维修过程中均对车轮的行驶性能提出很大的要求。
踏面损伤主要包含扁疤、踏面凹坑磨损、剥离与剥落等,这些损伤会引起轮轨之间的强作用力,直接影响轮轨正常接触,影响降低安全性能 [3] 。目前,针对轮轨检测方法分为传统检测方法和目标检测方法等。传统检测方法主要包括声学检测技术、振动检测技术、激光检测技术和红外热像检测技术等,主要侧重于踏面损伤的测量和分析,需要人工操作,并不能直接定位和识别目标;目标检测方法是基于深度学习的视觉检测技术,主要侧重于识别定位损伤区域,可不需人工操作,安全性高,实现高精度检测。
总之,随着深度学习的发展将推动检测算法向着更智能化和便捷化的方向发展,但仍存在一些挑战,如复杂环境下的准确性、实时性和可靠性等问题。本文将详细阐述四种算法,总结每种算法的基本原理、研究现状及其存在不足,并为下一步研究提出展望。
2. 踏面损伤检测算法分类
轮轨踏面检测算法是指用于检测铁路轨道和列车车轮之间踏面损伤的算法。这些算法旨在通过分析图像或传感器数据,识别轨道和车轮表面的损伤,如磨损、裂纹、凹陷等,并提供相关的检测结果和信息。如图1所示,轮轨踏面检测算法主要分为两类,一类为图像处理算法,如Canny边缘检测算法;另一类为深度学习算法,如Faster R-CNN算法、YOLO算法和SSD算法。
Figure 1. Classification of wheel-rail tread damage detection algorithms
图1. 轮轨踏面损伤检测算法分类
3. 图像处理算法——Canny边缘检测算法
澳大利亚计算机科学家约翰·坎尼(John F. Canny)提出了一种边缘检测算法,是图像处理最经典的算法之一 [4] 。以下介绍使用传统Canny算法和改进后Canny算法处理轮轨踏面损伤得到最终效果。
在轮轨踏面损伤检测中,Canny算法主要是通过边缘检测和特征提取来分析轮轨表面的边缘特征,从而识别损伤形状和程度。传统的Canny算法,在处理一些含高斯白噪声的图像时能够识别其噪声的实际边缘,除噪效果显著并得到广泛运用,但因其对噪声检测极为敏感,易丢失边缘信息,影响检测精度。文献 [5] 提出改进后的Canny算法采用两个高斯滤波结构构成的双边滤波,不仅能够做到除噪效果平滑而且还能有效保留图像的边缘信息。文献 [6] 采用双边滤波处理的图像,如图2所示,图2(a)为原图;图2(b)为传统的Canny算法对噪声处理较敏感,处理后的图像出现了许多干扰,影响边缘检测精度;图2(c)为改进后的Canny算法可以观察到噪声干扰被滤除掉,边缘信息得到了优化,由此验证了改进后的双边滤波的除噪效果、羽化和保留边缘信息方面效果突出。
(a)(b)(c)
Figure 2. Comparison of (a) Original image, (b) Traditional Canny algorithm, and (c) Improved Canny algorithm
图2. (a) 原图,(b) 传统Canny算法,(c) 改进后的Canny算法对比
文献 [7] 在双边滤波基础上,改变梯度的矢量,使得踏面边缘的细节较为清晰;设置高低阈值的Otsu,增强图片的自适应性及边缘信息的连续性和完整性,以便提取。文献 [8] 肯定了改进后的Canny算法与Otsu算法结合,但是整体上是一个较为复杂,运算量较大,速度较慢,易受外界环境因素影响,因此提出了基于现场可编程门阵列(FPGA)实现的Canny算法,其方法就是引入对数运算单元,结果表明,在一定程度上,降低了Otsu算法的复杂度,对阈值设置更具有灵活性,对512 × 512等图像检测时间可达1.231 ms,加快了原始算法运算速度。
4. 基于深度学习的踏面检测算法
卷积神经网络(Convolutional neural networks, CNNs)早在20世纪80年代有部分学者展开研究。目前,随着深度学习的快速发展,卷积神经网络已成为其最经典的算法之一,应用领域较为广泛。随着卷积神经网络的结构搭建越来越深入,对目标检测领域具有重要的实践意义,不同学者分别提出了R-CNN、SPP-net、Faster R-CNN等双阶段网络模型;YOLO模型、SSD模型等单阶段网络模型 [9] 。
4.1. Faster R-CNN算法
基于双阶段网络结构的Faster R-CNN由特征提取网络、RPN网络和分类回归网络三部分组成 [9] ,它使用VGG-16作为特征提取网络,提取输入图像的特征图,其次通过RPN网络生成区域建议框并进行边界框回归获得相应的特征矩阵。最后将每个特征矩阵通过ROI池化层统一缩放为固定尺寸(7 × 7)后输入分类回归网络,实现最终目标类别检测 [10] 。
文献 [11] 提出了基于Faster R-CNN和特征金字塔网络的钢轨踏面块状伤损检测研究,首先存在预测边框和实际边框重叠程度带来的问题,不利于预测框精确回归,因此提出改进回归边框损失函数,在训练模型的过程中,将Faster R-CNN网络中原有的SmoothL1损失替换为GIoU回归损失,并对网络进行训练及测试。其次,对于兴趣域的生成,原RPN兴趣域会经过一系列特征提取操作,耗费大量的计算量,因此用GA-RPN替换,并对改进的网络进行的训练和测试。最终,利用上述方法进行踏面检测,mAP、API等各项指标皆有显著提高,提高目标检测精度。文献 [12] 认为原始的Faster R-CNN网络结构会因轮轨踏面损伤目标较小无法识别,极易被深层网络结构忽略,提出改进候选框大小、IoU的评估方法和损失函数,实验结果表明原始Faster R-CNN进行目标检测时,检测精度只有76.5%,改进后的模型检测精度提升至85%。
4.2. YOLO算法
YOLO (You only look once)是基于单阶段网络模型实现目标检测任务的算法 [13] 。目前,YOLO算法不断更新迭代,能够快速训练模型并增强了多目标识别效果,精度不断提升。但是对于轮轨踏面缺陷这类较小的目标,因特征信息不足、IoU阈值设置不合理,CNN下采样率较大难以对其进行准确识别。
文献 [14] 提出了YOLO算法与Canny算法相结合的目标识别,主要方法是:首先利用Canny算法除去图像中的边缘噪声干扰,将带有缺陷的踏面暴露出来,改善图像效果,其次利用YOLOv3算法将缺陷特征检测出来,最后两种算法相互结合与单独YOLOv3算法相比,mAP值提升至83.17%,整体性能提升约25%。文献 [15] 主要改进YOLOv3算法,增大原有模型特征的尺度结构和重新构建适合于表面缺陷的聚类分析候选框。如图3所示的多尺度模型结构,以Darknet-53为主干网络骨架快速提取表面缺陷特征,改变数据集模型的训练次数,权重,输入图像分辨率等方法提升模型的识别精度,缺陷识别精度高达97.5%,平均用时45 ms。
Figure 3. Block diagram of the multi-scale model
图3. 多尺度模型结构框图
基于YOLOv3模型,文献 [16] 采用迁移学习与YOLOv5算法相结合,同时提高多尺度模型的预测分析与改进自适应锚框计算方法,最终结果表明,加入迁移学习的YOLOv5算法比单独的YOLOv5的mAP值提升了2.5%。文献 [17] 指出对于踏面剥离缺陷的检测过程中,针对原始的YOLOv5会出现错检或漏检问题,针对该问题,孙耀泽等学者 [17] 通过改变卷积注意力机制、精简Neck区域和优化损失函数,可以准确识别上述缺陷特征,置信度和模型的泛化能力大大提升。文献 [18] 认为YOLOv3借鉴了Faster R-CNN的AnchorBoxes方法,加快模型收敛。在研究过程中,原始YOLOv3模型提供了9个Anchor Boxes尺寸用于预测大、中、小目标,由于YOLOv3对踏面缺陷检测而言存在冗余部分,大多集中于中、小尺寸目标,预测大目标的输出尺度在文献 [18] 的数据集上无法发挥作用,因此删除了大尺寸目标,提高计算效率,修改后的网络标记为M-YOLOv3,简化了输入图像后的卷积计算。实验结果表明,M-YOLOv3对小目标检测效果较为突出,AP值达到89.9%,计算耗时减少7.9%,具有较高的检测准确率。
4.3. SSD算法
2016年,Wei Liu在ECCV发表论文时提出SSD(Single Shot MultiBox Detector)算法,是一种功能强大且具有实时性的目标检测识别算法 [19] 。对比Fast-R-CNN和YOLO,SSD算法在运算速率和mAP都有着突出的表现。SSD是以VGG16作为基础结构的多尺度目标检测模型,为便于检测,该结构在原有基础上添加了卷积层来识别更多的特征性图片,根据不同的特征图像在后续的金字塔模型,提取更多的表面特征信息,进一步提高模型的检测精度 [20] 。
SSD算法对大目标具有较好的识别效果,但是对于小目标检测会因目标过小或像素不清晰等干扰因素会导致检测结果出现误差,精度降低。文献 [21] 在原有SSD模型结构加入了如图4所示的Conv3和FAM网络结构。FAM网络结构是由CAM注意力通道模块和像素注意力模块PGAM组成的,为输入图片的通道和像素组成相应的权重值,准确表达图片的特征信息,提升抗干扰能力从而提升检测精度。
对于小目标检测,文献 [22] 在原有的SSD模型加入了双向特征金字塔模型,如图5所示,该模型结构是深层卷积层和浅层卷积层共同搭建而成,当输入图片通过不同尺度的特征层,会经过自上而下的上采样融合,每接收一次特征层会经过一次卷积运算,得到特征信息经过右侧自下而上的下采样卷积核,输出预测图像。两篇文献 [23] [24] 分别对改进后的SSD模型与Faster-R-CNN、YOLO、原始SSD算法的mAP和FPS进行比较,陈德海等 [23] 改进后的SSD模型的FPS值高于Faster-R-CNN、DSSD,但小于YOLO、原始的SSD算法,而其mAP高于上述所有算法,精度得到了很大的提升。同样,王贺等 [24] 改进后SSD模型与MobileNetV3-SSD、Tiny-YOLO、原始SSD算法也进行比较,虽然改进后的SSD模型的mAP高于除原始SSD模型以外其它算法的mAP,FPS对比上述算法得到显著的提升,达到28.0。文献 [25] 采用三种方法提升踏面损伤的精测精度,首先采用Transformer多头注意力机制取代原SSD的Cov5_1层用于提高小目标检测能力;其次采用Conv_7被Involution算子取代,减少卷积过程运算量;最后优化网络特征结构,全面检测待测图像中包含的全部信息,最终改进后的结果,检测精度和速度对比原SSD网络结构分别提升约4%,13%,更加高效检测出钢轨表面的小目标检测。
Figure 5. Structure diagram of deep convolutional layer and shallow convolutional layer network
图5. 深层卷积层和浅层卷积层网络结构图
5. 存在问题及后续展望
5.1. 存在问题
轮轨踏面损伤属于小目标检测,本文主要介绍了Canny算法、Faster R-CNN、YOLO算法和SSD算法对这一类目标检测的应用。对于目标检测识别来说,每种算法都能发挥它们各自的优势,但是它们各自单独使用进行检测,会因为目标过小等限制性因素识别效果不佳,因此研究人员对不同的算法分别进行结构改进或融合,输出效果对比原始模型有了较大提升。由于车轮与轨道之间高速摩擦仍然会产生更严重更复杂的损伤类型,因此上述算法在使用的过程中仍然存在一系列弊端。
1) Canny算法抑制了图像的噪声干扰,适合于检测边缘信息,但是对于目标检测来说,Canny算法存在计算复杂度高且不能直接得到目标检测边界框,不能定位损伤的位置。
2) 采用YOLO算法通过边界框能够精确、快速找到目标位置,但是对于检测表面缺陷等小目标物体时会出现错检漏检问题。
3) SSD在不同尺度的特征图上进行目标检测,通过多个预定义的锚框来预测目标的位置和类别,并使用多层特征融合来提高检测性能,相比于YOLO算法,检测速度稍慢,FPS值比YOLO算法略小。
5.2. 后续展望
针对踏面损伤检测算法存在的不足,未来可从如下几方面进行研究改进:
1) 针对Canny存在的不足,须引入双边滤波或快速边缘提取算法等方法并结合目标检测算法,以便提高目标检测的准确性、效率和稳定性,使其在目标检测领域发挥更大的作用。
2) 针对YOLO算法存在的不足,须优化网络结构优化及数据增强和后处理、引入多尺度检测、使用更深的网络结构、增加正负样本平衡等方法来提高检测的精度和准确性。
3) 针对SSD算法存在的不足,首先优化网络结构和模型参数以提高计算效率,其次进行多尺度或多层次的特征提取和检测以平衡速度和准确性,以及结合优化算法如非极大值抑制(NMS)进行后处理以减少冗余检测框,最后引入硬件加速技术如GPU加速,从而提高SSD算法的检测速度和FPS值。
针对未来算法的研究与开发提出以下几方面展望:
1) 充分了解并利用每种算法的优势,结合不同算法的特点和适用场景,提出更具结构性和创造性的目标检测算法。
2) 利用深度学习,如卷积神经网络和循环神经网络网络的强大特性,以及结合传统的计算机视觉技术和机器学习方法,以达到更好的目标检测效果。
3) 未来算法的开发与应用,不仅要考虑到提高检测结果精度与效率,还应当考虑降低成本、加强自动化程度,充分满足铁路运营的需求,提高运行安全性和效益。
6. 结语
本文阐述轮轨踏面损伤检测算法的研究现状,并简要分析各个算法的基本原理、优缺点及其未来的研究方向。虽然轮轨踏面检测相关算法日渐成熟且得到广泛的应用,但每种算法仍具有其局限性导致不能准确识别目标,故下一步的研究工作中须着重进行该方面的研究。
NOTES
*通讯作者。