一句话读论文:Panoptic Neural Fields(CVPR2022)

一句话读论文:Panoptic Neural Fields(CVPR 2022)

论文标题:Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation(CVPR 2022)
论文地址:https://arxiv.org/abs/2205.04334
作者单位:Google Research, Georgia Tech, Simon Fraser University, Stanford University
代码地址:暂无
一句话读论文:"We present Panoptic Neural Fields(PMF), and object-aware neural scene representation that decomposes a scene into a set of objects(things) and background(stuff)."

To Xicc,

​ 封面图感谢Xicc的无私分享!!!此生无悔入四月。

网络框架:

image-20220523191212464
图1 Overview of Panoptic Neural Field
image-20220523191253241
图2 Dynamic Challenging 3D Scenes Description

核心内容:

大佬们请收下我的膝盖!!!

Motivation:

  • 把多用于室内场景的Nerf首次应用到室外自动驾驶场景中

  • Nerf原先多用于View Synthesis ,图形学渲染,重建。本篇工作窥得大佬们的野心:想在室外自动驾驶场景中,把分类、语义分割、目标检测、目标追踪、全景分割、三维重建、深度估计、场景编辑与生成等一系列任务全部做到SOTA指标,从而让Nerf一统2D-3D视觉任务的天下。虽然本篇工作是初步的尝试,但是开辟了一个新的研究领域。

  • 相比于之前在Nerf基础上各种incremental类型的工作,本篇工作提出一种室外场景通用类型的Nerf框架。主要分为stuff类别和thing类别,除了分别学习传统Nerf模型所需要的color, pose,density 等信息,还加入语义信息,最后将stuff类别与thing类别共同合成panoptic radiance field,用于各类下游任务。

  • 在已有的语义分支+Nerf, Dynamics+Nerf等各种变体基础上,取消了共享的MLP网络,而是为每一种类别的物体instance设计小的MLP网络;此外在初始化上引入类别的先验信息,设计了category-specific meta-learned initialization

    本文的方法:在原版Nerf基础上,做如下变化

  • Things类别:

    • 首先用RGB-only 3D Object Detector& Tracker 得到Bounding box track (由一系列仿射变换矩阵组成)和语义类别.
    • 对每个物体实例,用标准的Nerf网络提取特征,该网络是由time-invariant MLP组成(不是随时间变化而变化的RNN时序网络),得到包括color, pose, density等参数信息
    • 损失函数共同优化Nerf网络和
  • Stuff 类别:

    • 用单一的Nerf网络提取Stuff类别,此外还有网络分支学习每个Stuff pixel的语义类别
  • Panoptic-Radiance Field

    • 对color,densiy等通道采取如下融合方式

    • 𝟙
  • Render Panoptic-Radiance Fields

  • Nerf中权重先验的获取

    • Bias initalization(设置stuff MLP的bias为-5,thing MLP的bias为0.1,因为真实室外场景中stuff volume大多数是空的,而thing volume大多数非空) 和 Meta-learn的方式(FedAvg 算法)

贡献点/创新性:

  • 见Motivation的第1-3条

实验结果:

image-20220523194617216
图5 实验结果1
image-20220523194641296
图6 实验结果2
image-20220523194752533
图7 实验结果3
image-20220523194819545
图8 实验结果4
image-20220523194847881
图9 实验结果5
  • Nerfs
  • Nerfs with Semantics
  • Nerfs with dynamics
  • Nerfs with object decompositions
  • Conditional NeRFs
  • MVS
  • SLAM

你认为优点/不足/可以拓展改进的地方(可选):

优点:

  • 太多了吐槽不完

缺点:

  • 虽然很大一统,但是整个框架挺复杂,目前只能在离线的训练和推理,不太容易直接应用在实时场景下。

其他笔记:

  • CVer 计算机视觉:https://zhuanlan.zhihu.com/p/513499887

一句话读论文:Panoptic Neural Fields(CVPR2022)
https://oier99.cn/posts/9cb0ed26/
作者
Yuki.N
发布于
2022年5月24日
许可协议