论文十问:Map-view Transformer(CVPR2022)
论文十问:Cross-view Transformers for real-time Map-view Semantic Segmentation(CVPR 2022)
论文标题:Cross-view Transformers for real-time Map-view Semantic Segmentation(CVPR 2022)
论文地址:https://arxiv.org/abs/2205.02833
作者单位:The Chinese University of Hong Kong
代码地址:https://github.com/bradyz/cross_view_transformers
一句话读论文:Our architecture implicitly learns a mapping from individual camera views into a canonical map-view representation using a camera-aware cross-view attention mechanism.
Q1
论文试图解决什么问题?
做图像特征与地图特征的融合("model geometry and relationships between different view and a canonical map representation")
Q2
这是否是一个新的问题?
利用地图信息作为query,参与语义分割网络的跨视图融合,是一个有新意的做法
Q3
这篇文章要验证一个什么科学假设?
Q4
有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
做俯视图语义分割,已有方法大致可归为如下两类(包含其存在的问题) Image-based depth estimation are error-prone. Depth-based projections are a fairly inflexible and rigid bottleneck to map between views.
附一份知乎笔记连接:https://zhuanlan.zhihu.com/p/511477453
Q5
论文中提到的解决方案之关键是什么?
通过cross-view transoformer来做Camera View到Map View的融合。相比于已有方法基于显式地几何关系地映射,这种融合的方式是一种隐式函数的映射("learn any geometric transformation implicitly and directly from data")。此外,transformer需要positional embedding来区分不同空间位置的特征。本文因此设计了camera-aware和map-view两类positional embedding。
Q6
论文中的实验是如何设计的?
Q7
用于定量评估的数据集是什么?代码有没有开源?
nuScenes, 已经开源
Q8
论文中的实验及结果有没有很好地支持需要验证的科学假设?
在俯视图的语义分割中是SOTA(37.5% mIoU), 和基于深度估计与投影等已有方法相比comaprable。但是整个赛道与图像语义分割与3D语义分割结果相比(70-80mIoU),整体后面还有挖掘空间
Q9
这篇论文到底有什么贡献?
1)利用了地图信息,这是一个比较有新意的setting. 2)注意力系数计算方式比较有新意,可以参考拓展
Q10
下一步呢?有什么工作可以继续深入?