论文十问：GASN(ECCV2022)

论文十问：GASN(ECCV 2022)

论文标题: Efficient Point Cloud Segmentation with Geometry-aware Sparse Networks 论文地址: PDF 作者单位: HKUST, DeepRoute 代码地址: https://github.com/ItIsFriday/PcdSeg

Q1 论文试图解决什么问题？

本文提出一个新的3D稀疏网络框架，可用于室外场景大规模自动驾驶数据集，在满足SOTA精度的前提下，有非常快的速度，更少的内存消耗，满足更好的实时性。

Q2 这是否是一个新的问题？

不是，很多工作都在尝试做这个

Q3 这篇文章要验证一个什么科学假设？

本文认为保证精度的关键在于对点云multi-scale特征的充分利用
本文认为保证速度并且降低显存的关键，是放弃基于点级别的操作(pooling), 网络设计全部基于sparse voxel-based representation。比如稀疏卷积，池化，多特征融合，MLP均在该稀疏特征层次上完成。

Q4 有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

基于Raw Point的网络: PointNet, PointNet++ (maintain and utilize the pointwise geometry).
通过采样降低点的数量，提高效率: RandLA， KPConv.（但是采样会导致极大的信息损失，这些网络在室外场景精度表现不高）
划分/投影到预先设定的Grids里(如2D, 3D, Sparse 3D)，再进行卷积/稀疏卷积操作：AF2S3Net, Cylinder3D, SECOND, PointPillar…4.Point, Voxel, Range等多种representation融合感知的网络: PVCNN, SPVCNN, DRINet, RPVNet
基于图的(主要室内用得多，大规模室外计算速度/显存开销偏大)
基于transformer的

Q5 论文中提到的解决方案之关键是什么？

整体网络由Sparse Feature Encoder(SFE)和Sparse Geometry Feature Enhancement(SGFE)两个模块组成。前者用稀疏卷积提取特征后送入SGFE； SGFE设计了多尺度稀疏特征投影模块(Multi-scale Sparse Projection)来增强对几何信息的提取，将多尺度融合后的特征送到下一层的SFE。
相比于PVCNN，SPVCNN, DRINet等point+voxel的表征方式，作者只保留了sparse-voxel representation送入SFE和SGFE，不需要point-wise representation，大大减小了计算开销与显存开销。
point-wise representation 能完整地提取点云的局部几何信息。为了弥补放弃使用point representation带来的几何信息感知缺失，作者设计了多尺度稀疏特征投影模块(Multi-scale Sparse Projection)来增强对几何信息的提取。认为不同的尺度下提取的特征是对点云结构的先验知识学习，在不同层次上获取并编码点云的几何特征。

Q6 论文中的实验是如何设计的？

主要做的语义分割实验，比较mIoU, 参数量，显存占用和速度

Q7 用于定量评估的数据集是什么？代码有没有开源？

nuScenes, semanticKitti.

Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设？

SemanticKitti和nuScenes，在mIoU和Cylinder3D, RPVNet, AF2S3net等SOTA网络基本持平的基础上，速度快2-5倍，显存占用量少2-3倍，参数量少2-10倍，仅一张2080Ti能跑的很好，性能优异

Q9 这篇论文到底有什么贡献？

提出了一个性能好，速度快，显存占用少，适用于大规模室外点云数据集的网络

Q10 下一步呢？有什么工作可以继续深入？

别卷了，卷不动了，有点强

论文阅读 > 点云 > 通用点云理解与网络设计 > 2022

#论文十问系列 #ECCV2022 #Efficiency #Sparse Voxel-Based Rrepresentation

论文十问：GASN(ECCV2022)

https://oier99.cn/posts/a69f9b72/

作者

F.Nagisa

发布于

2022年10月30日

许可协议

Spconv编程学习上一篇

LaTeX讲解系列(2)：常用数学符号大全下一篇