单幅RGB-D图像的深度完成
主页:pletion.cs.princeton.edu/
github:/yindaz/DeepCompletionRelease
论文:pletion.cs.princeton.edu/paper.pdf
目标-完成深度通道
RGB-D图像
问题-商品级深度相机通常无法感知闪亮、明亮、透明和远处表面的深度
方法-以RGB图像作为输入,预测密集的表面法线和遮挡边界。然后,将这些预测与RGB-D相机提供的原始深度观测值相结合,以求解所有像素的深度,包括原始观测值中缺失的像素
目标:完成深度通道
用商品相机捕捉的RGB-d图像(即,填充所有的洞)填充了深度图中的空隙。
以前的深度修复方法是通过手动调整来解决的,即外推边界表面并合成马尔可夫图像。来吧,填补漏洞
深层网络已用于深度估算,但由于以下困难,它尚未用于深度完井:
对于与完成的深度图配对的捕获的RGB-D图像,这样大规模的训练数据不容易获得。
这样,深度估计只能再现观察到的深度,而不能估计未观察到的深度信息。
本文介绍了一个新的数据集,105432 RGB-D图像,对应于72个真实环境下大规模表面重建计算出的完整深度图像。
深度表示
从单目彩色图像中估计精确的深度是很困难的,即使对于人类来说也是如此,尤其是对于图1中缺失如此大面积的区域。
因此,本文首先利用网络预测深度的局部微分性质:表面法线& amp;遮挡边界
以前没有人训练一个端到端的网络来完成来自RGB-D图像的深度。
一个想法是将先前的颜色网络扩展到深度,但是
这里的错位到底是什么意思?是否存在空间错位?有颜色信息的像素不一定有深度信息?
本文仅使用彩色图像作为输入,首先预测有监督的局部表面法线和遮挡边界,因为深度网络能够胜任从颜色信息预测局部特征。然后通过将这些预测与输入深度相结合的全局优化问题来完成深度。
主要见解
好处:通过这样做,网络独立于观察到的深度,并且因为新的深度传感器而不需要重新训练?
从单目彩色图像进行深度估计
散焦形状
其他人
-旧方法
自动编码器
开始
先前的方法没有研究深度图像的修复,这是一个难题,因为深度图像缺乏鲁棒特征、强特征和大规模训练数据。
马尔可夫随机场
从明暗恢复形状
分割
字典方法
虽然一些方法可以用于深度完井,但它们的关注点是不同的。
其他工作已经研究了由稀疏深度测量集合增强的彩色图像的深度重建。
但这项研究的动机是为了降低某些设定下的感知成本(比如节省机器人的成本),而不是深度完成。
与引言中提到的三个难点相对应,本文还重点讨论了以下三个问题:
然而,这种方法昂贵且耗时,并且这种类型的公共数据集仅包含少量室内场景。
例如:Matterport3D
这导致包含RGB-D和D*图像对数据集!
问题:多视图RGB-D图像的组合需要图像之间的配准,对吗?这个从原始数据集获取网格的过程是现成的吗?全局表面重建是一个现有的数据集。
看见
由于表面重建是在与深度相机的分辨率相当的3D网格尺寸中构建的,因此在完成的深度图像中分辨率通常不会损失。然而,当投影到观察平面上时,相同的3D分辨率为远离相机的表面提供了有效的更高像素分辨率。因此,在渲染高分辨率网格时,成品深度图像可以使用亚像素反走样来获得比原始图像更精细的分辨率(请注意图3家具中的细节)。为什么
本文中的数据集是具有渲染完成的117516 RGB-D图像:
训练集:105432;测试集:12084
然而,不同于从单一图像预测绝对深度,
本文是预测每个像素的局部属性,表面法线,遮挡边界。
为什么使用曲面法线遮挡边界:
因此,在从彩色图像到曲面法线的密集预测中效果很好。
那么,如何从曲面法线&获得;遮挡边界计算深度:
a)应该使用什么损失来训练网络
两种选择:仅在孔和所有像素上训练:
使用渲染法线和原始法线训练?
详见附录。
对比实验结果:
b)什么图像通道应该输入到网络
实验表明,如果用RGB-D作为预测法线的输入,对孔洞中像素的预测效果很差(虽然对观察到的像素有效)。据推测,这个网络只从RGB-D中的深度通道预测法线,因此它不能对孔起作用。
图5中的结论启发作者只用彩色图像预测表面法线。
将“没有深度的预测”与“有深度的优化”分开是相互竞争的,原因有两个:好处
之前网络预测曲面法线图像N和遮挡边界图像B(==它们长什么样?==)
解方程组
目标函数是四个平方误差的加权和。
$E_D$:估计深度和原始观察深度之间的距离。
$E_N$:通过切点乘以法线预测深度和表面法线的一致性。
$E_S$:使相邻像素具有相似的深度值。
B: $B ∈ [0,1] $根据像素在遮挡边界上的预测概率降低法线项的权重$(B(p))$
= =问题:如果在边界处,实际上不满足法向垂直切线,那么减轻他的重量?极端情况下只考虑遮挡边界处的$E_N$ =。
= =问题:平方误差不是已经非线性了吗= =
目标函数的矩阵形式是稀疏对称正定的,所以我们可以用= = a稀疏Cholesky分解[11]稀疏Cholesky分解= =来求解近似的目标包含函数。
评估指标
(以上测量深度误差,以下测量表面法线)
表1显示了不同输入下的结果(表中箭头越大越好;相反,越小越好)
例如,正常值的中值误差17.28
= =补充材料= =也说明了这种优势在不同损失设置下依然存在(仅观测VS仅未观测)。
作者认为,当它是一个观测深度时,网络会学习插值,而不是在孔中合成一个新的深度。
这个实验结果促使本文将整个方法分为两步:两阶段系统++!!
注意,在表2中,这里的d是从深度预测深度。
以Rel为例,no . 089
作者认为,由于曲面法线仅代表曲面的方向,因此最好预测。详见【31】。而且= =而且不随深度的变化而变化,在不同的视图中比较一致= =
表2:是表示有B,否表示没有重量下降,与0.089相比
遮挡边界==面积的曲面法线是否有噪点且不准确?= =图6
第二列是网络输出的正常和遮挡边界,第二行的第三列和第四列是有无边界权重的比较。第1行的第3列和第4列是根据输出深度图计算的表面法线。遮挡(Occlusion)边界= =提供深度不连续信息,有助于保持边界的清晰度/锐度= =参见根据深度计算的法线贴图。
图7
图像的水平轴是图像中具有深度(未遮罩)的像素数。左图显示了观察像素的预测深度精度,右图显示了不可观察像素的预测深度精度。
显然,未观察到的准确性;低于观测值;但只要有一小部分输入深度(==2000深度只占全部像素的2.5% =),这从侧面说明,即使是其他测量稀疏的深度传感器设计,也能得到更客观的预测结果。= =不需要重新训练网络(网络输入只有颜色)= =但是训练网络时的地面真实法线来自渲染的深度图像。如果只是做一个测试,真的不取决于raw深度的多少。
表3
表格中的比较方法有联合双线性滤波、快速双边求解和全局边缘感知能量优化。
发现Rel是所有方法中最小的。
图8示出了与联合双线性滤波的比较。
根据图8所示的结果,该方法的深度图边界更加精确。
与颜色对深度的深度估计方法相比
表4
文中各项指标都是最好的,涨幅23-40%。y代表观察到的深度N代表未观察到的深度。
这也说明预测法线也是深度估计的好方法。
注意,不仅预测的深度更准确,而且通过比较计算的表面法线,可以看出这种方法学习了更好的场景几何。
搭建沟通色彩图和深度图的桥梁。信息桥是正常的!
很明显,这是一个牺牲时间换取画质的游戏。
1.速度很慢。
对于分辨率为320x256的图像,使用NVIDIA TITAN X GPU大约需要0.3秒。在英特尔至强2.4GHz CPU上大约1.5秒。
2.依靠高性能硬件。很难控制成本。