[20.04] Longformer
長注意力機制
Longformer: The Long-Document Transformer
Transformer 的自注意力機制的計算複雜度為 。
當任何一個演算法的計算複雜度出現這種情況時,都意味著其中有非常大量的優化空間。
恩?這個開頭是不是有點熟悉?
定義問題
為了解決原始的 Transformer 計算複雜度的問題,研究者不停地尋找優化的方法。
一部分的方法是採用 Transformer-XL 的設計理念,用滑動視窗搭配額外記憶區塊的方式來處理長文件。
但滑動視窗的這種設計,對於雙向的注意力機制上有著天生的設計缺陷。
另外一種流派則是採用稀疏注意力機制,例如:比這篇論文還要早一年提出的 Sparse Transformer。
而過去關於稀疏注意力機制的研究,卻沒有提到基於預訓練模型的微調以及對於更多下游任務的泛化性。
本篇論文的作者的動機到這裡就很明確了:
- 長上下文採用「稀疏注意力機制」是一個不錯的解題方向。
- 但是注意力圖的設計必須進行優化。
- 並且應該引入預訓練的框架和測試更多下游任務的泛化能力。