为了解决在严重遮挡和存在无纹理物体情况下,从单一RGB图像中进行6DoF姿态估计的挑战,本文提出了一种通过像素级XYZ坐标映射的实时6DoF姿态估计方法。我们引入了联合的坐标–置信度损失函数来直接回归三维模型的空间坐标,以有效地处理无纹理物体和遮挡的杂乱场景。同时,我们还考虑了2D目标检测误差导致的问题,引入了一种动态缩放策略来提高算法的性能。实验表明,我们的方法在Occlusion LINEMOD和T-LESS数据集下的评估指标优于现有的基线方法。 To address the challenge of 6DoF pose estimation from a single RGB image in the presence of severe occlusion and texture-less objects, this paper proposes a real-time 6DoF pose estimation approach via pixel-level XYZ coordinates mapping. We introduce a joint coordinates-confidence loss function to directly regress the spatial coordinates of the 3D model to effectively handle texture-less objects and occluded in cluttered scenes. Meanwhile, we consider the problems caused by 2D object detection errors and introduce a dynamic scaling strategy to improve the performance of the algorithm. Experiments show that our method outperforms the existing baseline methods in terms of evaluation metrics under Occlusion LINEMOD and T-LESS datasets.
为了解决在严重遮挡和存在无纹理物体情况下,从单一RGB图像中进行6DoF姿态估计的挑战,本文提出了一种通过像素级XYZ坐标映射的实时6DoF姿态估计方法。我们引入了联合的坐标–置信度损失函数来直接回归三维模型的空间坐标,以有效地处理无纹理物体和遮挡的杂乱场景。同时,我们还考虑了2D目标检测误差导致的问题,引入了一种动态缩放策略来提高算法的性能。实验表明,我们的方法在Occlusion LINEMOD和T-LESS数据集下的评估指标优于现有的基线方法。
6DoF姿态估计,遮挡,无纹理,像素级
Yong Wu, Lianglun Cheng
School of Computer Science and Technology, Guangdong University of Technology, Guangzhou Guangdong
Received: Dec. 25th, 2021; accepted: Jan. 21st, 2022; published: Jan. 28th, 2022
To address the challenge of 6DoF pose estimation from a single RGB image in the presence of severe occlusion and texture-less objects, this paper proposes a real-time 6DoF pose estimation approach via pixel-level XYZ coordinates mapping. We introduce a joint coordinates-confidence loss function to directly regress the spatial coordinates of the 3D model to effectively handle texture-less objects and occluded in cluttered scenes. Meanwhile, we consider the problems caused by 2D object detection errors and introduce a dynamic scaling strategy to improve the performance of the algorithm. Experiments show that our method outperforms the existing baseline methods in terms of evaluation metrics under Occlusion LINEMOD and T-LESS datasets.
Keywords:6DoF Pose Estimation, Occlusion, Texture-Less, Pixel-Level
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
六自由度(6DoF)姿态估计,是估计相机坐标系下物体的6DoF姿态,即三维位置和三维旋转。6DoF姿态估计的意义在于能够获得物体的准确姿态,支撑对物体的精细化操作,主要应用于机器人抓取领域和增强现实领域 [
与传统的目标检测任务不同,6DoF姿态估计需要估计出物体的三维位置和三维旋转。现有基于特征点 [
随着深度学习和大数据的兴起,学术界出现了一些新的基于深度学习的方法。Xiang等人 [
另一个基本问题是,6DoF姿态的有效性依赖于其预置的2D目标检测器的准确性。许多方法 [
为了解决上述问题,我们提出了一个全新的网络框架,用于物体,6DoF姿态估计,在单一RGB图像中进行像素级XYZ坐标映射。本文的主要贡献包括以下三个方面:
· 我们提出了一个简洁的网络结构和联合的坐标–置信度损失(Coordinates-Confidence Loss, CC Loss)函数,基于高质量逼真的合成数据进行训练,以有效地处理杂乱场景中的无纹理物体和被遮挡的情况。
· 考虑到2D目标检测器的误差,我们引入了一种动态缩放(Dynamic Scaling, DS)策略,对检测结果进行参数化的调整。
· 与现有的方法基线相比,我们的方法在Occlusion LINEMOD和T-LESS数据集的准确性和实时性方面表现得更好。
本文的其余部分组织如下。第3节描述了所提议的方法。第4节展示了实验结果。第5节给出了本文的结论。
深度学习是一种数据驱动的技术,因此大量具有准确注释的数据是非常重要的。6DoF数据集与传统视觉任务不同,6DoF姿态直观表示为3D矩形框的关键点,这在真实世界中不容易被注释。此外,采集数据时,物体的姿态往往不能覆盖整个球体,这会导致数据不全、部分姿态难以估计的问题。随着Blender和虚幻4引擎的广泛应用,许多方法开始使用合成图像,这些图像通常是通过在随机背景上渲染三维物体模型获得的。因此,我们也在BlenderProc [
图1. 用于6DoF姿势估计的合成图像样本
数据集 | 物体种类 | 训练样本数 | 测试样本数 | 样本实例数 | |
---|---|---|---|---|---|
真实 | 合成 | ||||
LM-O | 8 | - | 50,000 | 1214 | 9038 |
T-LESS | 30 | 37,584 | 50,000 | 10,080 | 67,308 |
表1. 关于Occlusion LINEMOD (LM-O)数据集和T-LESS数据集的统计信息
在本文中,我们提出了一种用于物体6DoF姿势估计的全新CNN网络架构,如图2所示。具体来说,该网络由2D目标检测模块和6DoF姿态估计模块组成。2D目标检测模块用于定位物体的2D位置,而6DoF姿态估计模块逐像素学习XYZ的坐标映射,最后通过RANSAC/PnP算法得出6DoF姿态。它主要分为三个阶段:1) 给定一张RGB图像,我们采用FCOS与VoVNet高效骨干网络提取特征图,然后将检测到的2D边界框动态缩放为256 × 256大小的统一裁切图像,2)裁切后的图像流入ResNet网络,通过预训练模型获得高级特征图。物体的XYZ坐标图和置信度图由编码器–解码器结构预测,该结构是一个完全卷积网络。
图2. 6DoF姿态估计网络架构的概述
为了获得物体的XYZ坐标图,我们的方法执行了两项任务:2D目标检测和6DoF姿态估计。对于2D目标检测,给定一张输入RGB图像,我们通过所提议网络进行前向传播,获得分类分数 p x , y 和对每个位置的特征图 F i 进行回归预测 t x , y 。我们定义训练损失函数如公式(1):
l det = 1 N p o s ∑ x , y l cls ( p x , y , c x , y ∗ ) + λ N p o s ∑ x , y I { c x , y ∗ > 0 } l reg ( t x , y , t x , y ∗ ) (1)
其中, l cls 是Focal损失函数, l reg 是UnitBox中的IoU损失函数, N p o s 为正样本的数量, λ 是 l reg 的权重参数, I 为指示函数。
对于6DoF姿态估计,我们直接预测每个物体像素的空间坐标。此外,该网络还给出了置信度预测,以表明该像素是否属于该物体。具体来说,我们以ResNet为骨干网络,从目标区域中提取特征。然后,引入编码器–解码器结构,对特征进行处理,并将其统一比例为坐标–置信图,其中包含三通道的坐标图 M coor 和单通道的置信图 M conf 。它们共享网络权重, M coor 中的每个像素分别代表物体3D模型的XYZ空间坐标(如图3所示)。
图3. 3D模型的XYZ空间坐标
当我们从3D模型中估计空间坐标时,由于背景中的未知空间坐标,这会导致物体边缘处的坐标图出现明显的误差。为了解决这个问题,我们提出了一个联合的坐标–置信度损失(Coordinates-Confidence Loss, CC Loss)函数,具体如公式(2):
l CC = α ⋅ ‖ M coor − M ^ coor ‖ 1 + β ⋅ ‖ ∑ i = 1 n c ( M conf ⊗ ( M coor i − M ^ coor i ) ) ‖ 1 (2)
其中, n c = 3 是坐标图的通道数, M * 和 M ^ * 分别代表真值坐标图和估计坐标图, α 、 β 是权重系数, ⊗ 是矩阵外积。
更具体地说,我们只关注一个物体的坐标图,而对于置信图,我们计算的是裁切图像的损失而不是整个区域。这种设计避免了来自非感兴趣区域(如背景、遮挡)的干扰,使网络能够准确预测空间坐标。
2D目标检测的性能会影响6DoF姿态估计的结果,因此使用定制的2D目标检测器模型是常见的做法,但不能保证每个检测器在不同的场景下都具有良好的表现。因此,我们引入动态缩放策略,以提高6DoF姿态估计的鲁棒性。
2D目标检测的数学表示为物体的2D边界框 ( x , y , w , h ) ,其中 x 、 y 是边界框的中心点, w 、 h 为尺寸大小。我们引入截断的正态分布进行随机抖动采样,如下公式(3)、(4)、(5):
x ˜ ∼ f x = 1 σ x ⋅ ϕ ( x ˜ − x σ x ) Φ ( α w σ x ) − Φ ( − α w σ x ) (3)
y ˜ ∼ f y = 1 σ y ⋅ ϕ ( y ˜ − y σ y ) Φ ( β h σ y ) − Φ ( − β h σ y ) (4)
s ˜ ∼ f s = 1 σ min ( w , h ) ⋅ ϕ ( s ˜ − s σ s ) Φ ( γ min ( w , h ) σ s ) − Φ ( − min ( w , h ) σ s ) (5)
其中, x ˜ ∈ [ − α w , α w ] , y ˜ ∈ [ − β h , β h ] , s ˜ ∈ [ − γ min ( w , h ) , γ min ( w , h ) ] , ϕ ( · ) 为其累计分布函数, α 、 β 、 γ 是超参数。
由于图像缩的原因,RGB图像上的像素点位置与坐标图不同。为了构建3D-2D对应关系,需要将预测的坐标映射到RGB图像上(见图4)。对于每个像素点 ( i , j ) ,我们可以通过公式(6)得到3D-2D点 ( p x , p y ) :
{ p x = c x + w w ˜ ⋅ ( i − coor x ) p y = c y + h h ˜ ⋅ ( j − coor y ) (6)
其中, c x 、 c y 、 w 、 h 分别为RGB图像中物体的中心点和尺寸大小, coor x 、 coor y 、 w ˜ 、 h ˜ 分别为坐标图中物体的中心点和尺寸大小。
为了减少点对关系的异常值,我们引入了RANSAC,使得估计的6DoF姿态更加稳健。
图4. 3D-2D对应点
Occlusion LINEMOD [
T-LESS [
物体的6DoF姿态数学化抽象表示为4 × 4矩阵:
P = [ R T 0 1 ] (7)
其中,R为3 × 3的旋转矩阵,T为3 × 1的平移向量。
对于Occlusion LINEMOD数据集,一般的评估指标为:非对称物体的3D模型点平均距离(ADD) [
e ADD = avg x ∈ M ‖ ( R x + T ) − ( R ^ x + T ^ ) ‖ (8)
e ADD-S = avg x 1 ∈ M min x 2 ∈ M ‖ ( R x 1 + T ) − ( R ^ x 2 + T ^ ) ‖ (9)
其中,M表示为3D模型点的集合。如果估计姿态和真值姿态之间的距离 < 10 % ⋅ d (d为物体3D模型的直径),则可以认为估计的姿态是正确的。
为了与PVNet进行比较,我们还采用了2D投影度量指标,即使用真值姿态和估计姿态将物体3D模型投影至图像中。如果整个模型顶点的平均投影误差<5 px,则可以认为估计的姿态是正确的。
我们为T-LESS数据集引入了BOP Challenge [
结合上述三个姿态误差函数,T-LESS数据集的评价指标是由平均召回率(AR)来衡量的:
AR = AR VSD + AR MSSD + AR MSPD 3 (10)
为了提高方法的鲁棒性,我们引入了不同的图像对比度、亮度、高斯模糊和颜色失真。此外,我们使用带有黑色方块的随机物体掩码来模拟遮挡情况。在训练过程中,初始学习率为 1 × 10 − 4 ,批量大小为4。我们采用RMSProp函数( α = 0.99 , σ = 1 × 10 − 8 )进行优化。该模型总共训练了200个迭代,每50个迭代的学习率将被除以10。坐标标签通过前向投影与Z-Buffer计算的。
我们与基于RGB图像的6DoF姿态估计方法进行了比较,如表2、表3所示。对于Occlusion LINEMOD数据集,我们的方法在所有基线方法中取得了最好的性能。使用动态缩放(DS)策略的结果比使用真值边界框(BBs)的结果更为接近。
方法 类别 | Tekin [
|
PoseCNN [
|
Oberweger [
|
PVNet [
|
Ours | ||
---|---|---|---|---|---|---|---|
w/o DS | w/DS | w/BBs | |||||
ape | 7.01 | 34.6 | 69.6 | 69.14 | 71.45 | 73.29 | 75.43 |
can | 11.20 | 15.1 | 82.6 | 86.09 | 84.88 | 85.96 | 88.89 |
cat | 3.62 | 10.4 | 65.1 | 65.12 | 69.36 | 71.25 | 72.42 |
duck | 5.07 | 31.8 | 61.4 | 61.44 | 64.14 | 65.12 | 67.50 |
driller | 1.40 | 7.4 | 73.8 | 73.06 | 75.44 | 77.21 | 79.67 |
eggbos* | - | 1.9 | 13.1 | 8.43 | 9.33 | 9.96 | 10.89 |
glue* | 4.70 | 13.8 | 54.9 | 55.37 | 46.29 | 48.67 | 51.29 |
holepuncher | 8.26 | 23.1 | 66.4 | 69.84 | 80.01 | 82.11 | 84.50 |
mean | 6.16 | 17.2 | 60.9 | 61.06 | 62.61 | 64.20 | 66.32 |
表2. 我们的方法和基线方法在Occlusion LINEMOD数据集上的2D投影指标比较(带*号的物体具有对称的姿态歧义性)
方法 类别 | Tekin [
|
PoseCNN [
|
Oberweger [
|
PVNet [
|
Ours | ||
---|---|---|---|---|---|---|---|
w/o DS | w/DS | w/BBs | |||||
ape | 2.48 | 9.6 | 17.6 | 15.81 | 20.57 | 23.87 | 25.71 |
can | 17.48 | 45.2 | 53.9 | 63.30 | 62.81 | 62.64 | 64.32 |
cat | 0.67 | 0.93 | 3.31 | 16.68 | 23.98 | 24.45 | 25.15 |
duck | 1.14 | 19.6 | 19.2 | 25.24 | 60.00 | 61.98 | 64.05 |
driller | 7.66 | 41.4 | 62.4 | 65.65 | 42.22 | 42.56 | 42.78 |
eggbos* | 22 | 25.9 | 50.17 | 37.78 | 41.55 | 45.56 | |
glue* | 10.08 | 38.5 | 39.6 | 49.62 | 65.71 | 66.03 | 66.43 |
holepuncher | 5.45 | 22.1 | 21.3 | 39.67 | 41.00 | 42.22 | 44.50 |
mean | 6.42 | 24.9 | 30.4 | 40.77 | 44.26 | 45.66 | 47.31 |
表3. 我们的方法和基线方法在Occlusion LINEMOD数据集上的ADD(-S)指标比较(带*号的物体具有对称的姿态歧义性)
此外,我们将定性结果与PVNet进行比较,在不同程度的遮挡情况下,我们的方法产生了令人满意的姿态精度(见图5)。对于有严重遮挡的物体,PVNet存在漏检和较低的识别率,而我们的方法可以解决这种情况。
图5. Occlusion LINEMOD数据集上的结果可视化(边界框的左上角分别是物体的标签和置信度)
对于T-LESS数据集,我们在表4中把我们的方法与现有基线方法进行了比较。值得一提的是,在平均召回率指标方面,我们基于RGB的方法比基于RGB-D的方法要高出4.43%。我们将定性结果与EPOS进行比较,如图6所示,从比较结果来看,我们的方法具有更高的鲁棒性和准确性。
在性能方面,我们使用了两个训练数据集的版本:合成数据集和真实数据集。如表5和图7所示,少量的真实数据对所有指标的性能都有约10%的提升。在推理速度方面,二维检测器每张图片只需要约8 ms,而6DoF姿态估计网络需要20 ms。我们的方法在NVIDIA RTX 2060显卡上运行约35 ms,基本满足了实时的性能。
方法 指标 | DPOD [
|
Sundermeyer [
|
EPOS [
|
Ours | |||
---|---|---|---|---|---|---|---|
RGB | RGB-D | w/o DS | w/DS | w/BBs | |||
AR VSD | - | - | - | - | 42.34 | 42.72 | 43.87 |
AR MSSD | - | - | - | - | 46.89 | 47.67 | 48.12 |
AR MSPD | 13.9 | 50.4 | 51.4 | 63.5 | 68.32 | 69.13 | 70.52 |
AR | 8.1 | 30.4 | 48.7 | 47.6 | 52.52 | 53.13 | 54.17 |
表4. 标准试验系统结果数据
图6. T-LESS数据集上的结果可视化(边界框的左上角分别是物体的标签和置信度)
图7. 在不同训练样本下准确度–阈值曲线
指标 | 纯合成图像 | +真实图像 |
---|---|---|
2D投影 | 36.98 | 46.33 |
ADD(-S) | 49.63 | 59.54 |
AR | 44.42 | 52.52 |
表5. 在不同训练样本下的6DoF姿态估计指标
我们根据估计的6DoF姿势将物体的3D模型渲染到RGB图像上(见图8),已能够满足机器人抓取领域和增强现实领域。
图8. 我们的方法在Occlusion LINEMOD (第一行)和T-LESS (第二行)上的结果示例
在本文中,我们提出了一个全新的6DoF姿态估计网络框架,通过像素级的XYZ坐标映射进行6DoF姿态估计,这可以有效地处理遮挡情况和无纹理物体。同时,考虑了到2D目标检测对6DoF姿势估计的影响,我们的方法引入了动态缩放策略来提高鲁棒性。我们通过与现有的基线方法进行定量比较来评估我们的方法。实验结果表明,对于杂乱场景中的无纹理和遮挡物体,我们的方法优于基线方法。在未来的工作中,我们将通过多任务学习和注意力机制来优化网络结构,以提高准确性和稳健性。
吴 勇,程良伦. 通过像素级XYZ坐标映射的实时6DoF姿态估计Real-Time 6DoF Pose Estimation via Pixel-Level XYZ Coordinates Mapping[J]. 计算机科学与应用, 2022, 12(01): 221-232. https://doi.org/10.12677/CSA.2022.121023
https://doi.org/10.1007/s10462-020-09888-5
https://doi.org/10.1109/TRO.2015.2463671
https://doi.org/10.1007/978-3-642-37331-2_42
https://doi.org/10.15607/RSS.2018.XIV.019
https://doi.org/10.1109/CVPR.2018.00038
https://doi.org/10.1109/CVPR.2019.00469
https://doi.org/10.1109/ICCV.2019.00203
https://doi.org/10.1007/978-3-030-01231-1_43
https://arxiv.org/abs/1911.01911
https://doi.org/10.1007/978-3-319-10605-2_35
https://doi.org/10.1109/WACV.2017.103
https://doi.org/10.1007/978-3-030-66096-3_39
https://doi.org/10.1007/978-3-030-01267-0_8
https://doi.org/10.1109/CVPR42600.2020.01172