[21.03] Swin Transformer
舞會開始
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
同一時期提出的 PVT,同樣是將卷積網路的層級式結構引入 Transformer 中。
PVT 使用 SRA 機制(Spatial Reduction Attention)來減少注意力機制的運算量,但這樣的做法並沒有真正解決問題,注意力機制的平方複雜度仍然存在。
定義問題
在本論文中,作者要對標的對象還是原始的 ViT 架構,主要存在幾個問題:
多尺度偵測能力
大家都知道 ViT 沒辦法用在偵測、分割等任務上,因為 ViT 通常是將輸入打成一堆 16x16 的 patch,然後每一層都是對這些 patch 做自注意力運算,從頭到尾都是在同一尺度上進行,相較於其他架構,ViT 的多尺度偵測能力較為欠缺。