• 回答数

    2

  • 浏览数

    260

略过剧情
首页 > 期刊论文 > 深度图像算法研究论文

2个回答 默认排序
  • 默认排序
  • 按时间排序

gell墨脱

已采纳

单个RGB-D图像的深度补全 主页:

Github:

Paper:

Goal --complete the depth channel of an RGB-D image

Problem --Commodity-grade depth cameras often fail to sense depth for shiny, bright, transparent, and distant surfaces

Method --takes an RGB image as input and predicts dense surface normals and occlusion boundaries. Those predictions are then combined with raw depth observations provided by the RGB-D camera to solve for depths for all pixels, including those missing in the original observation

Goal: to complete the depth channel of an RGB-D image captured with a commodity camera (i.e., fill all the holes) 填充深度图的空缺

以前的depth inpainting (深度修复)方法 使用 hand-tuned(手工调整)来解决,该方法通过 外推边界表面、马尔可夫图像合成;来fill holes

深度网络已经用于depth estimation,但还未用来depth completion,因为有以下几个难点:

对于和 补全的深度图 配对的 捕获的RGB-D图像,这样的大规模训练数据不易获得

这样 depth estimation只能重现 observed depth,不能估计 unobserved 深度信息

本文引入了新数据集,105432张RGB-D 图像,且与在72个真实环境中从大规模表面重建计算出的完整深度图像对应

深度表示

直接用FCN回归depth不work尤其是对图1中缺失那么大的一片区域,因为即使对人类来说,从单眼 color image 估计精确深度也很难啊 所以本文先用网络预测depth的 局部微分属性:表面法线&遮挡边界

以前没有人去训练一个端对端网络去从RGB-D图像补全深度

一个想法是扩展一下前人color to depth 的网络,但是

这里的 不对齐 具体指啥,有空间位置的不对齐吗.有颜色信息的像素不一定有深度信息?

本文是 只将 color image 作为输入,先预测 local surface normals and occlusion boundaries with supervision,因为 从颜色信息预测局部特征是深度网络可以胜任的 。然后通过一个把这些预测和输入depth组合起来的全局优化问题来complete depth

Main Insight

好处:这样做smaller relative error ,网络独立于observed depth,不需要因为新的depth sensors再次训练 ?

depth estimation from a monocular color image 单目彩色图像

Shape-from-defocus

Others

-Old methods

Auto-encoder

GAN

先前的方法没有研究depth images的inpainting,由于depth images缺少鲁棒的特征strong features 和 大规模训练数据,这是比较难的问题

Markov random fields

Shape-from-shading

Segmentation

Dictionary methods

尽管一些方法可以被用来 depth completion,但两者的关注点是不同的。

其他工作已经研究了用稀疏深度测量集增强的彩色图像的深度重建。

但是该研究的motivation是降低一定设置下的传感成本(例如 节省机器人的成本),而不是depth completion

对应于introduction提到的三个难点,本文的研究也聚焦于以下三个问题:

但这方法昂贵耗时,这个类型的public dataset只包含少量的 indoor scenes

for example: Matterport3D [6], ScanNet [10], SceneNN [28], and SUN3D[22,67]

这就得到了包含 RGB-D & D* 图像对的数据集!

疑问:多视点的 RGB-D images 的结合 是需要图像之间的 配准regirstration 吧?难道这个得到mesh的过程是原来的数据集现成的?全局表面重建是数据集现有的 参见

由于表面重建以与深度相机的分辨率相当的3D网格尺寸构造,因此在完成的深度图像中通常不会损失分辨率。 然而,当投影到视平面上时,相同的3D分辨率为远离相机的表面提供了有效的更高像素分辨率 。 因此,完成的深度图像可以在渲染高分辨率网格时利用子像素抗锯齿来获得比原始图像更精细的分辨率(请注意图3中家具中的细节)。 WHY

本文的数据集有 117516 RGB-D images with rendered completions: Training set:105432;Test set:12084

然而difficult to predict absolute depth from monocular images,

本文是预测每个像素的局部属性,表面法线、遮挡边界

why use 表面法线 遮挡边界:

so,的工作在从颜色图像到表面法线的密集预测效果不错 [1,15,34,66,75]

那么,如何从surface normals & occlusion boundary 计算深度:

a) What loss should be used to train the network

two choices: trained only on holes vs all pixels:

trained with rendered normals VS raw normals ? 详见论文附件

对比实验结果:

b) What image channels should be input to the network

实验表明如果用RGB-D作为输入来预测法线,在holes部分像素的预测很差(尽管对于observed pixels work),推测这种网络只是从RGB-D中的depth channel预测normals,所以对于hole就不能work了

图5的结论启发作者仅用color image 预测 surface normals

separating “prediction without depth” from “optimization with depth” is compelling for two reasons:好处

前面的网络预测得到 surface normal image N 和 occlusion boundary image B(==长什么样子?==)

求解一个方程组

目标函数由 四个 平方误差的加权求和

$E_D$ :估计的深度和原始观察到的深度的距离

$E_N$ :预测的深度 和表面法线的一致性 by 切线 点乘 法线

$E_S$ :促使相邻像素有相似的深度值

B: $B ∈ [0, 1] $ down- weights the normal terms based on the predicted probability a pixel is on an occlusion boundary $(B(p))$

==提问:如果在边界, 实际是不满足法线垂直切线,所以减小他的权重 ?极端情况只考虑在遮挡边界的 $E_N$ ??==

==疑问:本来平方误差不就已经是非线性了吗==

目标函数的矩阵形式 是 稀疏 且 对称正定的,所以可使用==a sparse Cholesky factorization [11] 稀疏 Cholesky 分解== 来求解 近似的目标含函数

Evaluation metrics

(以上衡量depth error,下面是衡量surface normals)

table 1展示了不同输入下的结果(表中箭头向上 越大越好;反之,越小越好)

例如 normal 的 median error 17.28 < 23.59;depth的 Rel 0.089<0.09

==补充材料==里还展示了不同loss 设置下(observed only VS unobserved only),这个优势依然存在

作者认为当为observed depth时,网络会学习进行插值而不是在holes合成新的depth。

++这个实验结果促使本文将整个方法 分为两个步骤 two stage system++ !!

表二 注意这里的D是从depth 预测 depth

以Rel为例 N 0.089 < N+DD 0.092 < DD 0.100 < D 0.167。

作者认为由于表面法线只代表了orientation of surfaces ,比较好预测,详见[31];而==且他不随深度的变化而变化,在不同的视图里更一致==

表2 yes 表示有B,No 表示没有down-weights 对比 0.089<0.110,提升约 19%。 occlusion boundaries ==区域的surface normals是 嘈杂,不准确的?== 图6

第2列是网络输出的法线和遮挡边界,第2行第3、4列为 是否有boundary weight 的对比。第1行的3、4列是从输出的深度图计算的surface normal。遮挡(闭塞)边界==提供了深度不连续性信息,有助于保持边界的清晰度/锐度==看从深度计算的法线图

图 7

图像横轴是图像中具有深度的像素的个数(未被masked),左图展示了predicted depth accuracy of observed pixels,右图为predicted depth accuracy of unobserved pixels

显然unobserved 的accuracy 低于 observed;但是只要有一小部分的输入depth(==2000 depths 只占all pixels 的 2.5%==) .这从侧面说明即使是其他depth sensors designs with sparse measurements,也能得到比较客观的预测效果,==也不用重训练网络(网络输入只是颜色啊)== 但是你训练网络时的ground truth normals 来自rendered depth image 啊??如果只做个测试感觉确实不特别依靠raw depth的数目

表3

表中的对比方法分别是 联合双线性滤波、快速双边求解、全局边缘感知能量优化 发现Rel是所有方法中最小的

图8展示了与 联合双线性滤波的比较

图8展示的结果看,本文方法的深度图边界更精确

和color to depth的深度估计方法对比

表 4

本文方法个指标都为最佳,提升23-40%。 Y表示 observed depth N表示 unobserved 这也表明 预测法线 对于深度估计问题也是不错的方法

注意看,不仅预测的深度更准确,而且通过对比计算出的surface normals,说明本文方法学习到了更好的场景几何结构

搭建桥梁沟通了彩色图和深度图信息 桥就是normals!

显而易见,这是一个牺牲时间换取图像质量的游戏

1.速度很慢。

分辨率320x256的图像,使用NVIDIA TITAN X GPU还需要大约0.3秒;Intel Xeon 2.4GHz CPU上大约1.5秒.

2.依赖高性能硬件。难以控制成本

96 评论

呼伦小贝尔

基于深度学习的单目深度估计在近几年是比较热门的研究方向之一,MIT的Diana Wofk等人在ICRA 2019上提出了一种用于嵌入式系统的深度估计算法FastDepth,在保证准确率的情况下,大大提高了模型的计算效率。 论文: FastDepth: Fast Monocular Depth Estimation on Embedded Systems Offical Pytorch: 模型的整体结构比较简单,采用了Encoder-Decoder的架构。Encoder部分采用了MobileNet模型提取到7x7x1024的特征;Decoder部分采用了5次上采样,中间三次上采样结果通过Skip Connections的方法分别与Encoder部分的特征进行了特征融合,为了减小上采样部分的通道特征,还使用了5x5的卷积来降维;最后使用1*1的卷积得到深度图。 使用Keras实现基本的FastDepth模型: Decoder部分的结构如下所示: 为了减小模型体积,提高运算效率,使得模型更适用于嵌入式设备,使用 NetAdapt 算法对FastDepth进行了裁剪。 模型在NYU Depth V2 dataset上进行了训练,基本实验结果如下图所示。可以看出论文提出的FastDepth算法相较当前准确率最高的算法低了4%,但是运算速度有着大幅提升,因此特别适用于嵌入式设备。 下图是深度估计的可视化效果: 下图是不同方法下Encoder和Decoder部分的运算效率和准确率,可以看出论文提出的方法运算速度非常快,而且Depthwise、Skip Connections和网络裁剪这三个技巧可以大幅提高运算效率而且对准确率的影响比较小。

240 评论

相关问答

  • 国内外对图像增强算法的研究论文

    本文介绍一篇基于去雾算法的低亮度图片增强算法(FAST EFFICIENT ALGORITHM FOR ENHANCEMENT OF LOW LIGHTING

    长春小熊猫 2人参与回答 2023-12-06
  • 图像识别算法研究论文

    网上搜搜国外有一些demo程序,方便你入门。图像边缘提取 常用的边缘检测算子有梯度算子、Roberts算子、Sobel算子、Prewitt算子、Canny算子

    妖精狮子 2人参与回答 2023-12-06
  • 深度图像算法研究论文

    单个RGB-D图像的深度补全 主页: Github: Paper: Goal --complete the depth channel of a

    略过剧情 2人参与回答 2023-12-07
  • 图像提取算法研究论文

    这个你可以上中国期刊库网站查找一下。

    逍遥无涯子 3人参与回答 2023-12-08
  • 图像算法实现方法研究论文

    数字图像压缩技术的研究及进展摘要:数字图像压缩技术对于数字图像信息在网络上实现快速传输和实时处理具有重要的意义。本文介绍了当前几种最为重要的图像压缩算法:JPE

    框框拆拆远行车 3人参与回答 2023-12-06