有效且准确的深度信息能够精确感知场景的几何结构。目前主要采用的是激光雷达传感器。但由于其扫描线数有限,深度信息的稠密度非常低。由此提出深度补全任务(Depth Completion),基于给定的稀疏深度值来估计稠密深度信息。本文针对先前深度补全存在的边界模糊和混合深度的问题,提出一种多重注意力非局部特征融合的序列影像–激光点云深度补全模型。该模型通过融合人序列影像和激光点云,实现了多模态数据的优势互补,通过网络学习到更丰富的特征。实验表明该方法可以有效降低误差,提高深度补全的效果,极大地提高例如目标识别、目标跟踪、路径规划等任务的精度。 Effective and accurate depth information can accurately perceive the geometry of the scene. At present, LiDAR sensors are mainly used. But due to the limited number of scanning lines, the density of depth information is very low. Therefore, a depth completion task is proposed to estimate the dense depth information based on the given sparse depth map. In order to solve the problems of boundary blur and mixed depth in previous depth completion tasks, this paper proposes a depth completion network between single image and sparse LiDAR data with multiple attention and non-local feature. The fusion of image and LiDAR data realizes the complementary advantages of multi-modal data, and richer features can be learned through the network. Experiments show that this network can effectively reduce the error, improving the effect of depth completion, and greatly improve the accuracy of tasks such as target recognition, target tracking, path planning and so on.
有效且准确的深度信息能够精确感知场景的几何结构。目前主要采用的是激光雷达传感器。但由于其扫描线数有限,深度信息的稠密度非常低。由此提出深度补全任务(Depth Completion),基于给定的稀疏深度值来估计稠密深度信息。本文针对先前深度补全存在的边界模糊和混合深度的问题,提出一种多重注意力非局部特征融合的序列影像–激光点云深度补全模型。该模型通过融合人序列影像和激光点云,实现了多模态数据的优势互补,通过网络学习到更丰富的特征。实验表明该方法可以有效降低误差,提高深度补全的效果,极大地提高例如目标识别、目标跟踪、路径规划等任务的精度。
深度补全,注意力机制,自校准卷积,非局部特征,点云
Chen Zhang1*, Fei Zhang2, Chi Chen1, Bisheng Yang1
1State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan Hubei
2Shanghai
Received: Mar. 30th, 2022; accepted: Apr. 21st, 2022; published: Apr. 27th, 2022
Effective and accurate depth information can accurately perceive the geometry of the scene. At present, LiDAR sensors are mainly used. But due to the limited number of scanning lines, the density of depth information is very low. Therefore, a depth completion task is proposed to estimate the dense depth information based on the given sparse depth map. In order to solve the problems of boundary blur and mixed depth in previous depth completion tasks, this paper proposes a depth completion network between single image and sparse LiDAR data with multiple attention and nonlocal feature. The fusion of image and LiDAR data realizes the complementary advantages of multimodal data, and richer features can be learned through the network. Experiments show that this network can effectively reduce the error, improving the effect of depth completion, and greatly improve the accuracy of tasks such as target recognition, target tracking, path planning and so on.
Keywords:Depth Completion, Attention Model, Self-Calibrated Convolutions, Nonlocal Feature, Point Cloud
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
近年来,随着自动驾驶 [
早期的深度补全算法 [
融合RGB图像和稀疏深度图的深度补全算法 [
综上,深度补全任务存在边缘模糊和混合深度的问题,因此本文基于残差网络提出融合多重注意力的自校准卷积(Self-Calibrated Convolutions, SC-Conv)深度补全网络,并利用非局部特征传播网络迭代地优化初始深度预测,得到更精确的稠密深度图。
本文提出了一种多重注意力非局部特征融合的序列影像–激光点云深度补全方法,该方法的主体流程如图1。首先,将RGB图像和稀疏深度图一起输入融合多重注意力的自校准卷积深度补全网络,通过编码器–解码器结构分别获取颜色特征和深度特征,输出预测的初始深度图以及对应的置信度,同时输出非局部邻域以及亲缘关系。接着,将上述输出一起输入非局部特征空间传播网络对得到的预测初始深度图进行优化,根据预测的非局部邻域和亲缘关系,通过置信度和非局部空间传播过程迭代地优化改进初始深度预测,最后得到最终深度图。融合多重注意力的自校准卷积深度补全网络的具体流程如图2,非局部特征空间传播网络补全深度优化的具体流程如图7。
图1. 本文方法的流程图
如图2所示,本文设计了一种融合多重注意力的自校准卷积深度补全网络。将RGB图像和稀疏深度图先分别进行卷积操作,再将融合后的图像送入编码部分。在编码阶段,以残差网络ResNET50为基础,将每个残差模块的3*3高层卷积组替换为自校准卷积,得到自校准残差模块(SC-block),构造自校准残差网络(SCNet),提取更丰富的特征信息。在SCNet网络先通过64个大小为7*7的卷积核,步长为2,后连接一个批归一化层(BN)和激活函数层(ReLU)。之后依次通过E2—E5四个编码层,每个卷积后都连接一个BN层和ReLU层。E2包含3个SC-block,E3包含4个SC-block,E4包含6个SC-block,E5包含3个SC-block。E2中每个SC-block的卷积核步长均为1,在经过E2处理后特征图大小不变,输出特征图维度与卷积核个数一致。E3、E4、E5中每个SC-block的卷积核步长均为2,依次经过E3、E4、E5处理后,特征图大小依次变为初始特征图的1/2、1/4、1/8。SC-block的基本结构如图3所示。
图2. 融合多重注意力的自校准卷积深度补全网络
图3. 自校准残差模块基本结构
在解码阶段之前,先进行了一次卷积E6,步长为2,输入通道数与输出通道数一致,特征图大小变为初始特征图的1/16。在解码部分,先与对应编码阶段得到的特征进行特征融合,再通过一个转置卷积来进行上采样,依次经过D5-D2四个解码层,特征图大小依次变为初始特征图的1/8、1/4、1/2,最后在D2回到初始特征图的大小。之后对初始深度图、非局部邻域以及亲缘关系和初始深度图的置信度分别进行推算。以初始深度图的推算为例,将D2得到的特征图与E2得到的特征图融合,进行步长为1的卷积操作,得到的特征图再与E1初始融合图像特征进行融合,进行步长为1的操作,最后得到通道数为1的初始特征图。
自校准卷积方法 [
Y = C o n c a t e { C o n v 3 ( C o n v 2 ( X 1 ) ⋅ σ ( X 1 + U p ( C o n v 1 ( D o w n ( X 1 ) ) ) ) ) ; C o n v 4 ( X 2 ) } (1)
图4. 自校准卷积方法流程 [
多重注意力机制设计如图5所示,通道注意力模块和空间注意力模块采用顺序连接的方式加在自校准残差模块之间。给定一个中间特征图,沿着通道和空间两个维度依次推断出注意力权重,分别在通道维度和空间维度上学习特征,然后与原特征图相乘来对特征进行自适应调整。
图5. 多重注意力机制设计
多重注意力机制具体实现流程如下。首先计算通道注意力,将输入特征分别进行空间维度的最大池化和平均池化得到两个1*1*C大小的通道描述。再分别送入一个两层的神经网络。第一层神经元个数为C/r,激活函数为ReLU,第二层神经元个数为C。这个两层的神经网络是共享的。将得到的两个特征相加后经过Sigmoid激活函数得到权重系数,再与输入特征相乘即可得到通道注意力。接着将通道注意力作为空间注意力的输入,分别进行通道维度的最大池化和平均池化,得到两个H*W*1大小的通道描述。将这两个描述按照通道拼接后,经过7*7的卷积层和Sigmoid激活函数,得到权重系数,再与输入的通道注意力相乘即可得到最终的特征。通道注意力和空间注意力 [
图6. 通道注意力(左)和空间注意力(右) [
在现有的空间传播网络中,亲和力描述了像素之间的相关性,并为基于相似性的传播提供指导。在这种情况下,空间中的每个像素都被同等对待,而不考虑其可靠性。然而,在深度完成任务中,不同的像素应该根据其可靠性进行加权。例如,来自不可靠像素(例如,噪声像素和深度边界上的像素)的信息不应传播到相邻像素,无论不可靠像素与相邻像素的亲和力如何。所以本文的非局部特征空间传播网络见图7,首先将初始深度图的置信度纳入非局部邻域的亲和力归一化计算,建立可学习的亲和力归一化模块,以减少传播过程中来自不可靠深度的干扰。然后,将归一化后的亲和力与非局部邻域亲和力矩阵送进非局部空间传播模块,对预测的初始深度图进行迭代细化。非局部邻域定义见公式(2)。其中,I和D分别时RGB图像和稀疏深度图,(m,n)分别表示参考像素的坐标。
N m , n N L = { x m + p , n + p | ( p , q ) ∈ f ϕ ( I , D , m , n ) , p , q ∈ ℝ } (2)
图7. 非局部特征空间传播网络
为准确计算预测的稠密深度图,在训练过程中,本文采用绝对值误差 l 1 和均方误差 l 2 作为损失函数,计算预测的稠密深度图和实际深度真值之间的误差。损失函数的数学形式定义为公式(3)。
L r e c o n ( D g t , D p r e d ) = 1 n ∑ υ | D g t − D p r e d | ρ (3)
其中, D g t 表示深度真值图, D p r e d 表示预测的深度图, υ 表示深度真值图中所有合法像素的集合,n表示所有合法像素的个数。当 ρ = 1 时, l 1 是绝对值误差 ;当 ρ = 2 时, l 2 是绝对值误差。
本文实验在Ubuntu16.04操作系统下进行,计算机配置为 4块NVIDIA GeForce RTX 2080 Ti显卡。训练和测试采PyTorch1.6深度学习框架进行。采用了β1= 0.9,β2= 0.999的ADAM优化器,初始学习率为0.001。
为了证明本文提出的深度补全网络的有效性,在KITTI和NYU Depth v2两个公开数据集分别进行实验。其中,KITTI为室外场景数据集,NYU Depth v2为室内场景数据集。KITTI数据集有超过93,000张原始深度图,本文选择33个场景序列用于训练,另外28个场景序列用于测试。忽略没有LiDAR投影的区域,最后得到训练图像89,200张,测试图像1000张。采用中心裁剪得到大小为1216 × 240的图像。NYU Depth V2数据集包含464个室内场景的RGB图像和深度图。从原始数据集中抽取了45,205万张图作为训练集,654张图作为测试集。每个图像都被缩小到320 × 240,然后采用304 × 228的大小进行中心裁剪。
实验选择对模型进行了25次训练,在前10次训练之后,学习速率平均每5次训练衰减0.2。实验将批量大小设置为12,非局部邻域大小设置为8*8,根据经验将非局部空间传播迭代次数设置为18次。
为了定量的评价深度补全精度,实验选用深度补全任务统一的评价指标,将网络模型预测深度图和深度真值图对比,分别用均方根误差(RMSE),平均绝对误差(MAE),逆均方根误差(iRMSE),逆平均绝对误差(iMAE),平均绝对误差(REL)和平均log10误差三个指标来评价深度补全值的精度,它们的计算公式如下。
RMSE ( mm ) : 1 N ∑ i = 1 N ( d i g t − d i p r e d ) 2 (4)
MAE ( mm ) : 1 N ∑ i = 1 N | d i g t − d i p r e d | (5)
iRMSE ( 1 / km ) : 1 N ∑ i = 1 N ( 1 d i g t − 1 d i p r e d ) 2 (6)
iMAE ( 1 / km ) : 1 N ∑ i = 1 N | 1 d i g t − 1 d i p r e d | (7)
REL : 1 N ∑ i = 1 N ( ( d i g t − d i p r e d ) / d i g t ) (8)
平均log10误差: 1 N ∑ i = 1 N | d i g t − d i p r e d | (9)
δ τ : max ( d i g t d i p r e d , d i p r e d d i g t ) < τ (10)
其中, d i g t 和 d i p r e d 代表第i处像素的实际深度值和模型预测深度值。 δ 为准确率,threshold为准确率的阈值(分别取1.25、1.252和1.253)。
如图8选择了一张室外场景的高速区域数据做定性分析,图中所示区域包括了高速场景中常见的物体:车辆、指示牌、护栏等。图中(a)是原始彩色图像,(b)是稀疏深度图,(c)是实验结果图,(d)是深度真值图。发现,与深度真值图相比,实验结果能准确描绘出物体的形状、大小和相对位置。绿色框内是道路护栏,是高速场景典型的线型物体,通过本文的补全方法得到了准确的形状信息,同时与周围环境有明显的边缘线。蓝色框里是常见的高速道路几辆车交错的场景,通过本文方法可以准确地反映出车辆之间的前后、左右位置关系,并且在彩色图像中彼此之间重合的边缘线,在深度补全结果图中未发生深度混合,车辆间的深度信息清晰可见。红色框中是高速场景中最重要的物体之一,指示牌。发现经本文方法补全后,指示牌的边缘信息更清晰,但出现了过度外扩的问题,可能是因为距离相机较远,指示牌区域初始点云数据过于稀疏,且在深度真值图上,点云数量也较为稀疏,导致在补全过程中,指示牌与附近深度信息产生了一定程度上的混合,但最终得到的结果基本也能表达指示牌形状轮廓。
图8. KITTI实验结果
如图9选择了一张室内场景的厨房区域数据做定性分析,图中所示区域既有明显且干净的物体边缘,也有微小且混乱的物体边缘,此外也有前景和后景的明显区分,适合做定性分析。图中(a)是原始彩色图像,(b)是稀疏深度图,(c)是实验结果图,(d)是深度真值图。发现,实验用的稀疏深度图深度信息密度非常低,原始深度图根本无法分辨物体的轮廓,通过实验算法得到的补全深度图可以较为清晰的分辨出较大物体的轮廓,比如桌子、柜子和洗手台等。对于桌子上摆放的小型物体,比如瓶子、盘子等,对比真实深度图,还是可以分辨出一些细节的轮廓。尤其是红色框中圈出的物体,实验结果图比真实深度值图更接近真实的轮廓形状。另外,在获取深度信息的时候由于物体表面反射,容易造成深度信息缺失,形成深度空洞,例如图中绿色框圈出的位置,由于玻璃反射导致该区域在深度真值图中没有深度信息。从实验结果图发现,实验算法可以在一定程度上补全由于反射造成的深度空洞。
图9. NYU Depth v2实验结果
方法 | 误差(越低越好) | |||
---|---|---|---|---|
RMSE (mm) | MAE | iRMSE | iMAE | |
CSPN [
|
1019.64 | 279.46 | 2.93 | 1.15 |
DeepLiDAR [
|
758.38 | 226.50 | 2.56 | 1.15 |
DepthNormal [
|
777.05 | 235.17 | 2.42 | 1.13 |
本文方法 | 741.89 | 221.19 | 2.34 | 1.10 |
表1. KITTI实验结果
方法 | 误差(越低越好) | 准确率(越高越好) | |||
---|---|---|---|---|---|
RMSE | REL | δ < 1.25 | δ < 1.252 | δ < 1.253 | |
CSPN [
|
0.117 | 0.016 | 99.2 | 99.9 | 100.0 |
DeepLiDAR [
|
0.115 | 0.022 | 99.3 | 99.9 | 100.0 |
DepthNormal [
|
0.112 | 0.018 | 99.5 | 99.9 | 100.0 |
本文方法 | 0.093 | 0.012 | 99.5 | 99.9 | 100.0 |
表2. NYU Depth v2实验结果
表1和表2分别显示了KITTI数据集NYU Depth V2数据集的定量评价。通过结果对比可以得知本文算法结果更优。与其余主流方法的结果相比,本文模型仍然保持了较高的准确率。在KITTI数据集上与DeepLiDAR的结果相比,均方根误差和平均绝对误差分别降低了4.5%和6.0%。在NYU Depth V2数据集上与DepthNormal的结果相比,均方根误差和平均相对误差分别降低了17.0%和33.3%。
针对深度补全存在的边界模糊和混合深度的问题,本文提出了一种新的融合序列影像和激光点云的深度补全方法。通过融合序列影像和激光点云,获取多模态数据特征。在特征提取阶段,本文融合多重注意力机制并引入自校准卷积结构,挖掘更丰富的彩色图像特征和深度信息特征,及两者之间的内在特征互补。本文还考虑全局特征约束,消除局部不相干特征干扰,提出非局部特征空间传播网络深度补全优化方法对初始预测的深度图进行迭代,在传播过程中专注于相关的非局部邻域,以提升深度补全的效果。通过实验验证,本文方法在室内场景和室外场景中均有效对深度信息缺失区域的补全,准确识别了物体的边缘轮廓和细节特征,正确描述了物体间的相对位置信息,较为完整地表达了整个场景的深度信息。与别的深度补全方法相比,本文方法降低了深度补全的误差,更接近真实深度信息,有效提高深度补全的质量。在未来的研究中,计划在实地采集的数据集上验证训练模型的泛化性。
感谢国家科学基金面上基金和武汉大学知卓时空智能研究基金提供资助,感谢杨老师和陈老师对论文提供指导,感谢文章里引用文献的所有者。
国家自然科学基金面上基金(面向电力线路安全监测的UAV-MMS多模态细粒度融合感知),42071451。武汉大学知卓时空智能研究基金。
张 晨,张 飞,陈 驰,杨必胜. 多重注意力非局部特征融合的序列影像–激光点云深度补全Depth Completion between Single Image and Sparse LiDAR Data with Multiple Attention and Nonlocal Feature[J]. 测绘科学技术, 2022, 10(02): 111-120. https://doi.org/10.12677/GST.2022.102011
https://doi.org/10.1109/ICRA.2019.8793884
https://doi.org/10.1109/CVPR42600.2020.00567
https://doi.org/10.1089/cpb.2007.9935
https://doi.org/10.1007/978-3-030-58601-0_8
https://doi.org/10.1109/3DV.2017.00012
https://doi.org/10.1007/978-3-030-20887-5_31
https://doi.org/10.1109/ICRA.2018.8460184
https://doi.org/10.1007/978-3-030-01270-0_7
https://doi.org/10.1109/CVPR42600.2020.01011
https://doi.org/10.1007/978-3-030-01234-2_1
https://doi.org/10.1109/CVPR.2019.00343
https://doi.org/10.1109/ICCV.2019.00290