1000字范文 > ECCV | 悉尼大学提出：绝对尺度感知鲁棒以及可泛化的自监督单目深度估计网络DynaDepth

ECCV | 悉尼大学提出：绝对尺度感知鲁棒以及可泛化的自监督单目深度估计网络DynaDepth

时间：2024-02-01 12:27:11

原文链接：/article-info?id=3958
作者：张森

本文介绍我们中稿今年ECCV的一项工作：Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics。

基于深度学习的自监督单目深度估计神经网络近年已在主流数据集上取得了非常好的结果。但仅使用单目相机图像无法获得深度估计值的绝对尺度，从而限制了单目深度网络在实际中的应用。本文提出一个新的结合惯性测量数据的单目视觉深度估计框架，通过在训练阶段结合IMU（惯性测量单元）数据，可训练得到拥有绝对尺度感知能力的单目深度估计网络，使得在测试阶段针对给定的单目视频能够得到具有绝对尺度的深度估计值。并且，该方法相比于纯视觉方法，还具有更高的鲁棒性和泛化能力。

论文链接：
/abs/2207.04680
代码链接：
/SenZHANG-GitHub/ekf-imu-depth

一、研究背景

深度学习在三维几何的各项任务中都取得了显著的成果[1-3]。在深度估计领域，相比于需要大量人工标签的有监督学习方法，基于单目图像序列的自监督深度估计方法近年受到了学界的广泛关注[4-5]。为了利用深度神经网络对当前帧的深度以及前后帧之间的相对位姿进行同时建模和估计，我们可以通过多维几何视觉得到前后帧之间像素位置的投影关系，并基于采样得到由相邻帧反向重建出的当前帧，将其与真实的当前帧进行比对得到自监督的学习信号，从而监督训练上述神经网络。

目前的研究通过采用更复杂的网络与损失函数，遮挡与相对运动的异常点检测，以及通过与更多学习任务（比如光流，运动物体分割）相结合等方式[5-11]，在主流数据集（比如KITTI）上已取得了非常好的相对精度结果。

然而，当前基于图像重投影的光度损失的单目深度学习网络依然存在尺度不确定性的问题，从而限制了其在实际场景中的应用。这是因为在重投影的过程中，对神经网络估计的相机位移与深度乘以任意常数（如下面公式所示），都会得到相同的投影结果，因此，神经网络无法学习得到真实的位移与深度。

尽管有研究提出使用局部深度重投影作为额外损失，来保证尺度的一致性，但此类方法依然无法感知绝对尺度[12-14]。同时，基于重投影损失的纯视觉学习方法容易受到光照强度变化和运动物体的影响，并且由于真实世界图像的复杂性，在不同数据集间的泛化性也容易受到图像分布迁移的影响。此外，网络输出结果的不确定度对于研发具有更为鲁棒的系统而言非常重要。尽管已有研究提出对光度损失进行不确定度的建模，但当前自监督框架下依然难以衡量相机位姿估计量的不确定度。

为了解决以上问题，本文提出一个新的单目深度神经网络框架DynaDepth。通过引入IMU运动学模型，DynaDepth可以在训练过程中为深度估计网络赋予绝对尺度感知的能力。并且，由于IMU作为独立于图像领域的数据，在训练过程中令深度和位姿估计网络满足IMU运动学模型，可以进一步提高模型的泛化性。同时，相比于基于在训练过程中引入双目相机来提供绝对尺度的方法[15-16]，因为IMU并不受图像光照变化和特征缺失的影响，在视觉条件欠佳的场景，DynaDepth也具有更强的鲁棒性。此外，本文通过EKF（扩展卡尔曼滤波器）来对IMU和神经网络位姿估计进行融合，在EKF的框架下，我们也能进一步为相机位姿的估计值提供一个不确定度的度量。

二、我们的方法

我们首先计算IMU的预积分量，从而在训练过程中避免对可预积分部分的重复计算。在实际训练时，我们可由预积分量直接推导得到IMU原始数据所对应的相机位姿。

此处的一个技术难点是对相机坐标系下的速度和重力的估计，传统的视觉惯导系统通常需要引入一个基于优化的预处理步骤来获取速度及重力的初始值[17]。但是，这一初始化计算过程并不可导，难以整合入端到端的学习框架中。本文中则提出通过两个额外的神经网络来分别估计两帧间的速度与重力初始值，并且对于重力施加额外的近似幅值的约束。

基于从IMU数据得到的相机位姿，我们相应的设计了两个损失函数来对网络提供带有绝对尺度信息以及跨领域信息的自监督信号。首先我们同样基于IMU对应位姿进行重投影得到光度损失：

此外，我们提出通过跨传感器一致性的损失来对齐IMU以及基于视觉的神经网络所估计出来的位姿。在具体实现上，我们通过计算其各自重投影图像间的光度差异来作为此一致性损失。值得指出的是，通过此一致性损失，我们进一步能提高网络对于如光照变化、动态物体等异常场景的鲁棒性。我们允许两个重投影图像各自因为异常场景因素而和目标图像有局部的不匹配，只要基于IMU位姿和网络估计位姿所得到的重投影图像能保持一致，我们所提出的跨传感器一致性损失便不会对此进行惩罚，从而提高了对于异常场景的鲁棒性。

最后，对于相机和IMU信息的融合，我们提出通过基于相机坐标系的EKF扩展卡尔曼滤波器来实现此目的。由于EKF本质上通过对IMU和视觉信息的不确定度进行加权，我们也可借此得到一个对于神经网络估计出的相机位姿的不确定性度量。传统的视觉惯导系统近年来主要采用基于优化的方案，这主要是因为EKF在处理长时数据时，其马尔可夫假设难以满足，并且需要存储大量的协方差信息。然而，在自监督深度估计的训练框架下，由于我们通常采用短时视频片段作为基础训练单元，因此EKF的假设可认为近似满足，并且能提供一个可导且运算量较低的融合方案。

我们总体的技术方案如上图所示。考虑到DynaDepth中所有神经网络均以视觉图像作为输入信息，我们推导了在相机坐标系下表达的EKF过程，从而降低了在跨传感器融合过程中神经网络学习的难度，具体技术细节详见文章。

三、实验

为了和已有方法的效果进行对比，我们选择在多数方法报告了结果的主流数据集KITTI[18]上验证DynaDepth的有效性。

我们的主实验结果表明，在引入IMU的信息后，DynaDepth能够学习得到近于完美的绝对尺度结果，并且在精度上也有所提升。我们进一步将在KITTI上训练的模型在Make3D数据集[19]上进行测试，从而检验DynaDepth的泛化能力。

实验结果表明，在跨数据集的情景下，DynaDepth依然取得了很好的绝对尺度感知结果。相比于其他方法，其深度估计精度也有一定的提升。值得一提的是，对比采用了双目信息进行训练的monodepth2方法，本文提出的采用了独立于图像领域的IMU信息的DynaDepth依然取得了更好的深度估计精度和泛化能力。

我们同时对网络各个模块，以及鲁棒性和位姿不确定性进行了消融实验分析。首先从表4我们看出，绝对尺度信息主要来自IMU重投影损失，而跨传感器损失则对深度估计精度贡献较大。结合EKF和速度重力的幅值信息则能进一步提升深度估计的精度。

为了对鲁棒性进行研究，我们通过随机调整图像对比度以及随机施加黑色遮挡来模拟光照变化（IC）以及运动物体（MO）。我们的实验结果表明，DynaDepth在异常场景中相较于Monodepth2表现更好，并且EKF在异常场景中对深度估计精度的提升更为明显。

本文中进一步对学习到的相机位姿估计的不确定性进行了分析。从图2可以看出，随着深度估计精度的提升，位姿估计的不确定性也随之下降。并且，当使用更大的网络模型，我们可以得到更低的不确定度。同时，因为KITTI中车辆主要是向前运动（axis-z），在表6中可看出，对于前向位姿，我们得到了较低的不确定度，而对于其他两个平均运动幅度较小的方向，不确定度则变得很大。这可能是因为在这种情况下，网络难以区分随机噪声和这两个方向上的小幅度运动。

四、总结

本文通过引入IMU运动学信息，提出了一个新的具有绝对尺度感知能力、较好鲁棒性和泛化性的单目深度估计框架DynaDepth。通过在KITTI和Make3D上和现有方法的对比以及大量的消融实验，我们验证了此方案的有效性。IMU和相机因其低成本、易获取等特点，在各种人工智能系统中被广泛采用。我们期望本文提出的基于IMU和相机融合的深度估计网络框架，在实际中能发挥更大的价值，并且启发更多将IMU信息引入基于深度学习的视觉框架中的研究，例如在光流估计，物体分割，和视频理解等任务中引入独立于视觉的额外信息和约束。此外，对于IMU数据本身，如何在端到端的学习框架中针对不同成本和应用场景的IMU的噪声进行处理和内部统计量估计，也是一个值得继续探索的研究方向。

参考文献

[1] Fu, Huan, et al. “Deep ordinal regression network for monocular depth estimation.” Proceedings of the IEEE conference on computer vision and pattern recognition. .

[2] Wang, Sen, et al. “Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks.” IEEE international conference on robotics and automation (ICRA). IEEE, .

[3] Zhang, Sen, Jing Zhang, and Dacheng Tao. “Information-Theoretic Odometry Learning.” International Journal of Computer Vision (IJCV), .

[4] Zhou, Tinghui, et al. “Unsupervised learning of depth and ego-motion from video.” Proceedings of the IEEE conference on computer vision and pattern recognition. .

[5] Godard, Clément, et al. “Digging into self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. .

[6] Ranjan, Anurag, et al. “Competitive collaboration: Joint unsupervised learning of depth, camera motion, optical flow and motion segmentation.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. .

[7] Jung, Hyunyoung, Eunhyeok Park, and Sungjoo Yoo. “Fine-grained semantics-aware representation enhancement for self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. .

[8] Yin, Zhichao, and Jianping Shi. “Geonet: Unsupervised learning of dense depth, optical flow and camera pose.” Proceedings of the IEEE conference on computer vision and pattern recognition. .

[9] Guizilini, Vitor, et al. “3d packing for self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. .

[10] Johnston, Adrian, and Gustavo Carneiro. “Self-supervised monocular trained depth estimation using self-attention and discrete disparity volume.” Proceedings of the ieee/cvf conference on computer vision and pattern recognition. .

[11] Zhou, Zhongkai, et al. “R-msfm: Recurrent multi-scale feature modulation for monocular depth estimating.” Proceedings of the IEEE/CVF International Conference on Computer Vision. .

[12] Bian, Jiawang, et al. “Unsupervised scale-consistent depth and ego-motion learning from monocular video.” Advances in neural information processing systems 32 ().

[13] Zhan, Huangying, et al. “Visual odometry revisited: What should be learnt?.” IEEE International Conference on Robotics and Automation (ICRA). IEEE, .

[14] Zhao, Wang, et al. “Towards better generalization: Joint depth-pose learning without posenet.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. .

[15] Yang, Nan, et al. “Deep virtual stereo odometry: Leveraging deep depth prediction for monocular direct sparse odometry.” Proceedings of the European Conference on Computer Vision (ECCV). .

[16] Zhang, Sen, Jing Zhang, and Dacheng Tao. “Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World.” IEEE International Conference on Robotics and Automation (ICRA), .

[17] Qin, Tong, Peiliang Li, and Shaojie Shen. “Vins-mono: A robust and versatile monocular visual-inertial state estimator.” IEEE Transactions on Robotics 34.4 (): 1004-1020.

[18] Geiger, Andreas, et al. “Vision meets robotics: The kitti dataset.” The International Journal of Robotics Research 32.11 (): 1231-1237.

[19] Saxena, Ashutosh, Min Sun, and Andrew Y. Ng. “Make3d: Learning 3d scene structure from a single still image.” IEEE transactions on pattern analysis and machine intelligence 31.5 (): 824-840.

Illustrationby Violetta Barsukfrom icons8

-The End-

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”：
bp@

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。