传统Transformer中的注意力机制计算量是平方级别的。本文提出了Luna,Linear Unified Nested Attention 的方法,通过增加一个额外的固定长度的序列作为输入和输出,把平方级别的注意力计算拆分成两个线性时间的计算步骤来做近似,并且该固定长度的序列可以存储足够的上下文相关信息(Contexual Infomation)。


  1. 想提出一个简单有效减低计算复杂度的方法
    • 传统的注意力机制的计算和存储都是\(O(n^2)\)的(\(n\)表示序列的长度),但是对于长序列输入,序列间相关性往往是稀疏的(不是完全图)
    • 已有的改进方法: 1)利用稀疏性约束(Sparse Attention),如local attention[1], strided[2][3], Hierarchical Global Attention[4],attention with learnable patterns[5] 2)利用注意力矩阵的低秩性,如Linformer[6] 3)kernel 方法,如Linear Transformer[7], Performer[8] , Random Feature Attention[9]
    • 本文所提出的引入额外固定长度序列的方法简洁优美,且能有效将计算复杂度降低到线性级别。



不过,本篇的idea和几乎同一时间(2021.06)放到Archiv上的External Attention using Two Linear Layers for Visual Tasks[10] 有同工异曲之处,详细可参考知乎介绍


