神经隐式表面(Neural Implicit Surface)一直是近年来计算机视觉的热门研究方向。许多工作通过扩展神经辐射场的体渲染管线实现了从二维图像和相机位姿作为输入,在无需三维监督信息下重建高质量三维物体形状。但是,由于利用二维图像进行训练监督,这些方法难以对高亮物体的形状进行合理的推理,其原因是因为物体材质和环境光照所产生的模糊性。本文提出一种针对高亮物体的高效表面重建方法,通过权重插值辐射场(Radiance Field)与反射场(Reflection Field)的方式使得可以更好地表达高亮物体的外观。同时,本文引入了一种渲染损失的方法来缓解高光反射带来的多视角不一致问题,并且引入了两种针对物体法向量的正则化来缓解混合神经场梯度噪声的问题。本工作通过渐进式的训练范式分别对三种数据集进行了实验,实验表明,本方法在多视角合成和高亮物体表面重建任务上都超越了基准模型,并且在训练速度上比基准模型快一个量级。 Neural implicit surface has been a popular research direction in computer vision in recent years. Many approaches have extended the volume rendering pipeline of neural radiance field to reconstruct high quality 3D object shapes from 2D images and camera poses as input without any 3D supervision. However, due to the use of two-dimensional images for training supervision, it is difficult for these methods to rationally reason about the shape of glossy objects, because of the ambiguity caused by the material and environment lighting. In this paper, we propose an efficient surface reconstruction method specifically designed for glossy objects, which better represents the appearance of such objects through the interpolation of a weighted radiance field and reflection field. Additionally, we introduce a relax rendering loss to alleviate the issue of multi-view inconsistency caused by specular reflections, and two types of regularization for object normal to reduce the gradient noise of the hybrid neural field. Experiments on three datasets using a progressive training paradigm demonstrate that the proposed method outperforms baseline models in novel view synthesis and surface reconstruction tasks, while achieving training speeds approximately one order of magnitude faster than baseline models.
神经隐式表面(Neural Implicit Surface)一直是近年来计算机视觉的热门研究方向。许多工作通过扩展神经辐射场的体渲染管线实现了从二维图像和相机位姿作为输入,在无需三维监督信息下重建高质量三维物体形状。但是,由于利用二维图像进行训练监督,这些方法难以对高亮物体的形状进行合理的推理,其原因是因为物体材质和环境光照所产生的模糊性。本文提出一种针对高亮物体的高效表面重建方法,通过权重插值辐射场(Radiance Field)与反射场(Reflection Field)的方式使得可以更好地表达高亮物体的外观。同时,本文引入了一种渲染损失的方法来缓解高光反射带来的多视角不一致问题,并且引入了两种针对物体法向量的正则化来缓解混合神经场梯度噪声的问题。本工作通过渐进式的训练范式分别对三种数据集进行了实验,实验表明,本方法在多视角合成和高亮物体表面重建任务上都超越了基准模型,并且在训练速度上比基准模型快一个量级。
神经符号距离场,隐式曲面,表面重建,高亮物体
Siyuan He, Xinglin Liu
School of Electronics and Information Engineering, Wuyi University, Jiangmen Guangdong
Received: Apr. 28th, 2024; accepted: May 24th, 2024; published: May 31st, 2024
Neural implicit surface has been a popular research direction in computer vision in recent years. Many approaches have extended the volume rendering pipeline of neural radiance field to reconstruct high quality 3D object shapes from 2D images and camera poses as input without any 3D supervision. However, due to the use of two-dimensional images for training supervision, it is difficult for these methods to rationally reason about the shape of glossy objects, because of the ambiguity caused by the material and environment lighting. In this paper, we propose an efficient surface reconstruction method specifically designed for glossy objects, which better represents the appearance of such objects through the interpolation of a weighted radiance field and reflection field. Additionally, we introduce a relax rendering loss to alleviate the issue of multi-view inconsistency caused by specular reflections, and two types of regularization for object normal to reduce the gradient noise of the hybrid neural field. Experiments on three datasets using a progressive training paradigm demonstrate that the proposed method outperforms baseline models in novel view synthesis and surface reconstruction tasks, while achieving training speeds approximately one order of magnitude faster than baseline models.
Keywords:Neural Signed Distance Field, Implicit Surface, Surface Reconstruction, Glossy Objects
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
三维重建是计算机视觉的基础任务。传统的多视角立体视觉方法需要繁琐的处理流程,每一个步骤都会产生误差积累,从而影响到三维物体或场景的形状恢复。近年来,随着神经辐射场的发展,许多工作通过扩展神经辐射场的体渲染管线来拟合隐式表面,从而表达物体的三维形状。
NeuS [
本文工作通过提出了一种混合反射场(Reflection Field)与辐射场的插值方法,在缓解反射场训练不稳定的同时,使得整体网络可以更好地表达高光反射的外观。同时,本文引入了一种渲染损失来缓解高光反射所引起的多视角不一致性,并且通过两种法向量的正则化来约束估计的法向量。针对三种不同含高光反射的数据集,实验证明,本工作在新视角合成任务和隐式表面重建任务上超越了基准模型,并且训练时长相比与基准模型缩短了一个量级。
神经隐式表面(Neural Implicit Surface)为一种基于学习的隐式表面表示方法,其使用神经网络对输入的三维坐标点进行映射,得到对应的隐式表面表示,如符号距离场、占据概率等。DeepSDF [
基于神经辐射场(Neural Radiance Field, NeRF)的工作能够表达视角相关(View-Dependent)的物体外观,但对于拟合具有高光反射的外观,这些工作依然难以有很好的拟合效果。IDR [
本章会先简单回顾神经辐射场(NeRF)的基本原理,并且简要介绍渐进式多分辨率哈希编码。然后,对网络结构进行整体的介绍,之后针对本工作的三个部分进行详细阐述,分别为:(1) 混合辐射场与反射场(Hybrid Radiance–Reflection Field)的插值方法;(2) 缓解多视角不一致的渲染损失函数计算;(3) 正则化项。
神经辐射场(NeRF) [
F : ( x i , d ) → ( σ i , c i ) (1)
公式1中的 σ i 为光线上第 i 个采样点的体密度(Volume Density), c i 为该采样点估计的辐射值,即该点的颜色。然后,NeRF通过简单的体渲染对整条光线的所有采样点颜色进行积分,其计算的值为对应像素的颜色值 C ^ ,具体的表示如下:
C ^ = ∑ i = 1 n T i α i c i , T i = exp ( − ∑ j = 1 i − 1 σ j δ j ) (2)
公式2中, T i 为前 i 个采样点的累积透射率,这里的 α i 为第 i 段采样间距的不透明度。对于整个训练过程的渲染监督,NeRF为粗阶段和精细阶段,每个阶段对于像素颜色的损失函数 L 均为L2损失, r 表示对应的光线, C ( r ) 表示对应光线的真实像素值,具体如下:
L = ‖ C ^ ( r ) − C ( r ) ‖ 2 2 (3)
然而,NeRF对物体表面缺乏明确的定义,NeuS等工作通过建立符号距离场(Signed Distance Field)与公式2的联系,从而可以通过体渲染管线来优化隐式表面。在NeuS中,公式1具体表示如下:
s i = MLP ( [ x i , PE ( x i ) ] ) (4)
c i = MLP ( [ PE ( d ) , e n c g , n ] ) (5)
NeuS [
图1. 网络架构图
本文方法提出了一种能够高效恢复高亮物体隐式表面,同时在新视角合成任务上也有出色性能的方法。如图1,整体的网络结构分为两个部分:(1) 几何网络(Geometry Network);(2) 外观网络(Appearance Network)。
对于几何网络部分,本文采用渐进式的多分辨率哈希编码 γ 对三维坐标 x 进行插值,然后将插值好的特征体输入到一层的MLP中,通过Sigmoid函数输出估计的符号距离值。同时,单层MLP输出的几何特征为 e n c ,用于为外观网络提供几何信息。与先前的工作不同,本方法在几何网络部分针对法向量的估计提供了两种不同计算形式的输出。图1中,几何网络估计的法向量 n ^ ,其网络结构与估计符号距离值相同,但单层MLP与估计符号距离值的MLP并不共享参数,为独立的MLP。而图1中法向量 n 为符号距离场(Signed Distance Field, SDF)的导数,但这里并不采用NeuS的解析导数形式,而是采用一种有限差分的求导方法,其表达式如下:
n = ∇ f ( x i ) = f ( γ ( x i + ϵ ) ) − f ( γ ( x i − ϵ ) ) 2 ϵ (6)
公式5中, f ( ⋅ ) 表示MLP,这里的层数为1层。 γ ( ⋅ ) 表示多分辨率哈希编码,与Neuralangelo [
虽然,渐进式的编码可以在计算数值梯度(公式5)时提供有很好的平滑性,但是针对高光物体表面拟合时依然会引入过多的噪声。错误的法向量对于反射的计算和外观网络的对辐射值的拟合会有很大的影响。所以,本文使用上述两种法向量 n 和 n ^ 提供了两种正则化方式,具体见章节3.5。另外,图1中针对符号距离值和法向量 n ^ 的估计,这里MLP的初始化与SAL的初始化一致,其对MLP的权重采用正态分布的初始化方案。
对于外观网络的设计,与先前的工作不同,NeuS [
图2. 混合辐射场与反射场网络(外观网络)结构图
本工作对于外观网络采用一种权重衡量辐射场(Radiance Field, RF)和反射场(Reflection Field, ReF)的混合表达方式。对于辐射场,如图2,实际上与Instant-NGP [
c r f = MLP ( [ SH ( d ) , e n c , n ] ) (7)
对于反射场,其输入为该采样点的反射方向 ω r 。由图1所示,这里使用几何网络估计的法向量 n 和给定的视角方向 d 对反射方向进行计算,表达式为:
ω r = 2 ( ω o ⋅ n ) n − ω o (8)
与Ref-NeRF [
c r e f = MLP ( [ SH ( ω r ) , e n c , n ] ) (9)
由图1所示,本工作通过将球面谐波编码的特征与采样点三维坐标同时输入到MLP中进行权重 w 的估计,其用于衡量漫反射颜色 c r f 和光泽颜色 c r e f 对当前点颜色的贡献,通过反向传播对权重进行优化。其具体的表达如下:
c = w ⋅ c r e f + ( 1 − w ) ⋅ c r f (10)
实际上,高光反射的物体表面会破坏多视角一致性的假设,使得在计算渲染损失的过程中由于需要最小化与真实像素的相似性而产生伪影。在先前工作中,一般的思路为建立一个反射评分用于衡量该像素点存在反射的可能性,但这种思路仅针对于单一像素,无法很好地联合多个视角对同一个物体表面的像素点进行联合考虑。本工作尝试引入一种类似Ref-NeuS [
β ¯ 2 i ( r ) = γ 1 ∑ j = 1 N υ j ∑ j = 1 N υ j M d i s (11)
M d i s = ( C ¯ i ( r ) − C ¯ j ( r ) ) T ∑ − 1 ( C ¯ i ( r ) − C ¯ j ( r ) ) (12)
这里的 υ 表示表面点 x * 相对于每个相机视角的可见性, C ¯ 表示为表面点 x * 反投影到对应视角图像空间的像素值,其计算与Ref-NeuS一致。但是,表面点 x * 的计算过程与Ref-NeuS略有不同,如图3所示,由于本方法采用类似Neuralanglo [
T i = { x j | f ( γ ( x j ) ) ⋅ f ( γ ( x j + 1 ) ) < 0 } (13)
S ^ i = { x | x = f ( γ ( x j ) ) x j + 1 − f ( γ ( x j + 1 ) ) x j f ( γ ( x j ) ) − f ( γ ( x j + 1 ) ) , x j ∈ T i } (14)
图3. 表面点集合计算对比图
如上公式, S ^ i 表示第 i 条光线与物体表面相交的点的集合,相交点的计算是采用两侧异号的符号距离值,通过线性插值得到相交点。由于光线与物体会出现多个相交点,这里取距离相机原点最近的相交点,表达式为:
x i * = arg min D ( x , o i ) (15)
这里的 D ( ⋅ , o i ) 为距离计算函数。实际上,本方法会先对可见性 υ 进行计算,然后再对每一个可见的光线进行马氏距离的计算,这样的方式可以减少对无可见光线对图像空间进行反投影的计算开销。如图3,这里将每个视角做光线步进时与物体最近的相交点与视角相机原点 o i 的距离记为 d j ,而该相机原点到可见性计算的物体表面点 x i * 的距离记为 d j * ,可见性的表示为:
υ j = II ( d j * ≤ d j ) (16)
经过实验观察,直接使用上述几何网络通过有限差分法(Finite Difference Method)求导得到的法向量 n 在拟合高亮物体时会产生很多噪声,整体的法向量并不平滑。为了缓解这些噪声对隐式表面拟合的影响,这里引入了两个对于法向量的损失函数:
L n = ∑ i w i ‖ n − n ^ ‖ 2 (17)
这里 L n 中的 n ^ 为几何网络估计的法向量,而 n 为符号距离场(SDF)进行有限差分求导得到的法向量。由于几何网络中嵌套了MLP,其可以很好地为估计的法向量 n ^ 提供一定的平滑性,从而一定程度上影响了有限差分求导的法向量 n 的平滑性。同时,为了保证法向量的朝向正确,这里引入了类似Ref-NeRF的法向量惩罚,表示为:
L o = ∑ i w i max ( 0 , n ⋅ d ) 2 (18)
上述的 w i 均为该点在体渲染方程中的权重,其衡量该点在整条光线上积分的贡献程度。除此之外,本方法采用先前工作 [
L e i k = 1 P ∑ i = 1 P ( | ∇ f ( x i ) | − 1 ) 2 (19)
同时,对于颜色损失 L c o l o r 的考虑,本方法采用L1损失,而不是公式3的L2损失,并且通过上述的公式来缓解优化过程中多视角不一致导致的噪声引入,具体的表述如下:
L c o l o r = ∑ r ∈ R | C ^ ( r ) − C ( r ) | β ¯ 2 ( r ) (20)
所以,本方法总体的损失函数可以表示为如下:
L = L c o l o r + λ 1 L e i k + λ 2 L n + λ 3 L o (21)
为了评估本文方法的有效性,我们采用了两种公开的高光物体数据集,分别为Shiny Blender数据集和NeRO [
本文工作选取了多个模型进行新视角合成任务和隐式表面重建任务的对比。对于新视角合成任务,实验选择了在Shiny Blender数据集,与三个针对高光物体的模型进行对比,有Ref-NeRF [
本工作的网络结构主要分为几何网络与外观网络。对于几何网络中的多分辨哈希编码,其编码层级(Level)设置为16层,哈希表的大小为219,起始分辨率设置为32,每个层级的哈希特征大小设置为2。这里的多分辨率哈希编码设置与Neuralangelo [
本节主要对三种上述提到的数据集与基准模型进行对比实验。同时,在章节4.2.1中对本文方法进行消融实验。对于新视角合成任务,主要的定量评价标准采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构性相似度(Structural Similarity, SSIM)。对于隐式表面重建任务,这里采用倒角距离(Chamfer Distance, CD)作为定量评价标准。
对于新视角合成任务,本实验尝试在Shiny Blender数据集和NeRF Synthetic数据集上进行对比实验。从表1可以看出,本方法在Shiny Blender数据集中的大部分高光物体上都取得较优的结果。虽然,Ref-NeRF [
Car | Ball | Helmet | Teapot | Toaster | Coffee | 平均值 | |
---|---|---|---|---|---|---|---|
PSNR↑ | |||||||
Nvdiffrec | 27.98 | 21.77 | 26.97 | 40.44 | 24.31 | 30.74 | 28.70 |
NvdiffrecMC | 25.93 | 30.85 | 26.27 | 38.44 | 22.18 | 29.60 | 28.88 |
Ref-NeRF | 30.82 | 47.46 | 29.68 | 47.90 | 25.70 | 34.21 | 35.97 |
ENVIDR | 29.88 | 41.03 | 36.98 | 46.14 | 26.63 | 34.45 | 35.85 |
NeRO | 26.88 | 33.66 | 29.59 | 40.29 | 27.31 | 33.76 | 31.91 |
本方法 | 28.95 | 46.67 | 34.58 | 48.07 | 26.96 | 33.20 | 36.41 |
SSIM↑ | |||||||
Nvdiffrec | 0.963 | 0.858 | 0.951 | 0.996 | 0.928 | 0.973 | 0.945 |
NvdiffrecMC | 0.940 | 0.940 | 0.940 | 0.995 | 0.886 | 0.965 | 0.944 |
Ref-NeRF | 0.955 | 0.995 | 0.958 | 0.998 | 0.922 | 0.974 | 0.967 |
ENVIDR | 0.972 | 0.997 | 0.993 | 0.999 | 0.955 | 0.984 | 0.983 |
NeRO | 0.949 | 0.974 | 0.971 | 0.995 | 0.929 | 0.962 | 0.963 |
本方法 | 0.966 | 0.995 | 0.994 | 0.998 | 0.932 | 0.985 | 0.978 |
表1. Shiny Blender数据集对比实验结果
Drums | Lego | Materials | Hotdog | Ficus | 平均值 | |
---|---|---|---|---|---|---|
PSNR↑ | ||||||
NeRF | 25.01 | 32.54 | 29.62 | 36.18 | 30.13 | 30.70 |
Ref-NeRF | 25.43 | 35.10 | 27.10 | 37.04 | 28.74 | 30.68 |
ENVIDR | 22.99 | 29.55 | 29.52 | 31.44 | 26.60 | 28.02 |
本方法 | 26.03 | 30.40 | 29.42 | 35.93 | 32.52 | 30.86 |
表2. NeRF Synthetic数据集对比实验结果
对于NeRF Synthetic数据集,本实验选取了部分包含高光反射的物体进行简单对比。如表2,本方法在PSNR和SSIM两项评价标准上均取得较好的结果,并且在平均值上优于其他方法。
对于隐式表面重建任务,本实验针对Glossy Synthetic数据集进行了验证。由于Glossy Synthetic数据集上的物体存在较多的高光反射,物体表面的材质多为金属材质,这给基于体渲染管线的隐式表面重建方法带来了巨大的挑战。本实验选择了两个针对高光反射物体的先进基准模型,为Ref-NeuS [
NeuS (20w step) | Nvdiffrec | NvdiffrecMC | Ref-NeuS (3w step) | NeRO (3w step) | NeRO (20w step) | 本方法 (3w step) | |
---|---|---|---|---|---|---|---|
Angel | 0.0035 | 0.0056 | 0.0034 | 0.0124 | 0.0058 | 0.0034 | 0.0029 |
Horse | 0.0053 | 0.0077 | 0.0052 | 0.0067 | 0.0071 | 0.0049 | 0.0039 |
平均值 | 0.0044 | 0.0067 | 0.0043 | 0.0096 | 0.0065 | 0.0042 | 0.0034 |
表3. Glossy Synthetic数据集倒角距离(CD)实验结果
图4. Glossy Synthetic数据集重建表面质量对比图
为了更好地评估本方法的有效性,该实验针对本文提出了三个部分进行消融实验,分别为:(1) 混合辐射场与反射场(Hybrid Radiance-Reflection Field),鉴于先前工作均使用辐射场作为外观表达,这里针对反射场进行消融实验,将去掉反射场记为(-ReF);(2) 这里将去掉法向量正则化,同时去掉反射场的消融实验标记为(-NR & -ReF);(3) 在消融实验(-NR & -ReF)的基础上,针对本文引入的缓解多视角不一致的渲染损失,这里使用NeuS基准模型使用的L1颜色损失将其替换,标记为(-NR & -ReF& -RL)。本消融实验选取了Shiny Blender数据集和Glossy Synthetic数据集中的两个物体进行实验,具体的定量评价如表4。
Horse (Glossy Synthetic) | Helmet (Shiny Blender) | |
---|---|---|
PSNR↑ | PSNR↑ | |
本方法 | 24.29 | 34.57 |
-ReF | 22.90 | 30.10 |
-NR & -ReF | 22.65 | 29.77 |
-NR & -ReF& -RL | 22.83 | 30.60 |
表4. 消融实验结果
图5. 消融实验几何质量对比图
从表4和图5可以看出,本文提出的混合辐射场与反射场的方法可以较好地拟合高光物体的外观。当去掉反射场(-ReF)时,两个数据集的物体在新视角合成任务上的峰值信噪比均有明显的下降,说明反射场能够很好地辅助网络进行高光反射的拟合。对于Glossy Synthetic数据集,如图6所示,混合方法的外观表示可以很好地辅助隐式表面的拟合,使得在高光反射区域能够拟合出高质量的表面。
图6. 消融实验三维网格可视化图
本次工作,我们引入了一种混合辐射场与反射场的外观表达方式,并且通过结合一种改进的渲染损失来缓解高光反射带来的多视角不一致性,使得整体网络对于高光物体的隐式表面拟合更加稳定。同时,由于针对高光反射物体的隐式表面拟合对于法向量的质量较为敏感,本工作引入了两种法向量的正则化约束,使得法向量的估计在优化过程中避免陷入局部最小值,同时缓解了混合神经场梯度带来的噪声。该方法在高光物体的隐式表面恢复有着较好的表现,并且训练时长仅为分钟级。同时,其对于高光反射物体的新视角合成任务上也有较好的结果。但是,本文的方法仍然存在不足,比如针对大规模场景中存在的镜面反射或高光反射,该方法难以解决,我们将其作为未来工作的探索。
何思源,刘兴林. 针对高亮物体的高效神经隐式表面重建Efficient Neural Implicit Surface Reconstruction for Glossy Objects[J]. 计算机科学与应用, 2024, 14(05): 265-276. https://doi.org/10.12677/csa.2024.145135
https://doi.org/10.1109/ICCV48922.2021.00554
https://doi.org/10.1109/CVPR52688.2022.00541
https://doi.org/10.1145/3528223.3530127
https://doi.org/10.1109/CVPR.2019.00025
https://doi.org/10.1109/CVPR.2019.00459
https://doi.org/10.1145/3503250
https://doi.org/10.1109/ICCV51070.2023.00392
https://doi.org/10.1109/ICCV51070.2023.00014
https://doi.org/10.1109/CVPR52688.2022.00810
https://doi.org/10.1145/3592134
https://doi.org/10.1109/CVPR52729.2023.00817