论文十问:GASN(ECCV2022)
论文十问:GASN(ECCV 2022)
论文标题: Efficient Point Cloud Segmentation with Geometry-aware Sparse Networks 论文地址: PDF 作者单位: HKUST, DeepRoute 代码地址: https://github.com/ItIsFriday/PcdSeg
Q1 论文试图解决什么问题?
本文提出一个新的3D稀疏网络框架,可用于室外场景大规模自动驾驶数据集,在满足SOTA精度的前提下,有非常快的速度,更少的内存消耗,满足更好的实时性。
Q2 这是否是一个新的问题?
不是,很多工作都在尝试做这个
Q3 这篇文章要验证一个什么科学假设?
- 本文认为保证精度的关键在于对点云multi-scale特征的充分利用
- 本文认为保证速度并且降低显存的关键,是放弃基于点级别的操作(pooling), 网络设计全部基于sparse voxel-based representation。比如稀疏卷积,池化,多特征融合,MLP均在该稀疏特征层次上完成。
Q4 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
- 基于Raw Point的网络: PointNet, PointNet++ (maintain and utilize the pointwise geometry).
- 通过采样降低点的数量,提高效率: RandLA, KPConv.(但是采样会导致极大的信息损失,这些网络在室外场景精度表现不高)
- 划分/投影到预先设定的Grids里(如2D, 3D, Sparse 3D),再进行卷积/稀疏卷积操作:AF2S3Net, Cylinder3D, SECOND, PointPillar…4.Point, Voxel, Range等多种representation融合感知的网络: PVCNN, SPVCNN, DRINet, RPVNet
- 基于图的(主要室内用得多,大规模室外计算速度/显存开销偏大)
- 基于transformer的
Q5 论文中提到的解决方案之关键是什么?
- 整体网络由Sparse Feature Encoder(SFE)和Sparse Geometry Feature Enhancement(SGFE)两个模块组成。前者用稀疏卷积提取特征后送入SGFE; SGFE设计了多尺度稀疏特征投影模块(Multi-scale Sparse Projection)来增强对几何信息的提取,将多尺度融合后的特征送到下一层的SFE。
- 相比于PVCNN,SPVCNN, DRINet等point+voxel的表征方式,作者只保留了sparse-voxel representation送入SFE和SGFE,不需要point-wise representation,大大减小了计算开销与显存开销。
- point-wise representation 能完整地提取点云的局部几何信息。为了弥补放弃使用point representation带来的几何信息感知缺失, 作者设计了多尺度稀疏特征投影模块(Multi-scale Sparse Projection)来增强对几何信息的提取。认为不同的尺度下提取的特征是对点云结构的先验知识学习,在不同层次上获取并编码点云的几何特征。
Q6 论文中的实验是如何设计的?
主要做的语义分割实验,比较mIoU, 参数量,显存占用和速度
Q7 用于定量评估的数据集是什么?代码有没有开源?
nuScenes, semanticKitti.
Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?
SemanticKitti和nuScenes,在mIoU和Cylinder3D, RPVNet, AF2S3net等SOTA网络基本持平的基础上,速度快2-5倍,显存占用量少2-3倍,参数量少2-10倍,仅一张2080Ti能跑的很好,性能优异
Q9 这篇论文到底有什么贡献?
提出了一个性能好,速度快,显存占用少,适用于大规模室外点云数据集的网络
Q10 下一步呢?有什么工作可以继续深入?
别卷了,卷不动了,有点强
论文十问:GASN(ECCV2022)
https://oier99.cn/posts/a69f9b72/