随笔：那些在CV里用腻了的话术与说辞

究其根源，深度学习是一个黑盒子(Black Box)，缺乏一套能够解释清楚深度神经网络的运作机理的数学理论，比如，能否解释深度网络究竟从海量数据中学到了什么，深度网络的反向传播过程的收敛条件，训练深度模型为什么花费那么长时间，究竟有多少时间是对学习真正有用的。由于缺乏理论支撑，很多搞深度学习应用的(如CV, NLP)大多follow这样的研究路线：通过紧跟研究”热点“，读paper参会看别人提出了哪些模型，然后想到一个”灵感“，提出一套自己魔改的结构，抱着试一试的心态做实验发现work了，再来解释一通，就去投稿发paper。所以很多paper(尤其搞CV/NLP + DL)都是从性能结果反向解释自己的神经网络结构，并且很多解释是基于经验和直觉的。

读多了后，发现有一些话术是比较Common的技巧，就是很多工作都愿意用上这些技巧来提点，写作时用上相似的话术去讲故事，总觉一下就觉得比较有意思。以后有空会继续补充。

Multi-Resolution/Hierarchical/Pyramid Sturcture/Extract Feature at diferent scales
不同层次/级别的特征如何融合：Feature Fusion
分类问题/多模态问题/迁移学习问题: Intra-class variance & Inter-class Variance(最小化类内XXX，最大化类间XXX,以保留判别性信息)
Global Part + Local Part 的多分支设计
Local Discriminative Part
粗粒度+细粒度(Coarse + Fine的设计)
Grouping操作，把相似的归纳到一起(比如聚类，相似度打分)，分类做loss
Feature Alignment, Domain Alignment, Pixel Alignment；各种Alignment
Meta Learning + 各种领域；就近年会议review情况来看，元学习快被用烂了(烂大街的感觉)，基本是所有reviewer都觉得没啥可用的。把他作为主要创新点容易被喷novelty不够。
multi-task learning
point-voxel interaction/distillation
multi-scale的图像，点云，视频，文本等，总要提一嘴
Prompt+ everything
attention is all your need. 满大街的attention

(未完待续…)

随笔

#CV #话术

随笔：那些在CV里用腻了的话术与说辞

https://oier99.cn/posts/29b99bf4/

作者

oier99

发布于

2021年10月9日

许可协议

随笔：关于高维空间样本分布稀疏性的联想上一篇

课程笔记：统计学习理论与方法(ELS_Chap2) 下一篇