[23.05] VanillaNet
香草極簡風
VanillaNet: the Power of Minimalism in Deep Learning
在深度卷積網路流行了十年後,居然還能看見這麼極簡風格的作品。
定義問題
在過去幾年間,電腦視覺領域的研究突飛猛進。從一開始的 AlexNet 到現在最新進的 CNN 與 Transformer 的 Hybrid 架構,讓人目不暇給。
為了刷 ImageNet 的榜,研究者們不斷地提高模型複雜度,相對的計算成本和資源需求也急劇上升。不僅如此,複雜的架構也讓部署流程帶來挑戰,像是 ResNet 在操作時會消耗大量的額外記憶體,或是 Swin Transformer 中的移位視窗機制,需要複雜的工程實現,包含了重寫 CUDA 程式碼等。
為什麼無殘差的卷積架構不再受到重視?
說的就是 AlexNet 和 VGG。
原因是什麼大家也都懂:因為深度網路結構中存在梯度消失和網路退化的問題。而當年正式 ResNet 提出的殘差結構則有效地解決這個問題。也因此無殘差的網路架構,在準確度方面就是比不過別人,這是無可避免的事實。
簡單架構的網路設計一時之間彷彿走入死胡同,乏人問津。
隨著 AI 晶片的不斷發展,現代 GPU 可以經鬆地進行平行運算,神經網路的推論速度瓶頸已經不再是 FLOPs 或參數量。相比之下,模型得複雜設計和大深度,反而成為速度的阻礙。
直到這時人們愕然發現,原來最後的瓶頸早在出發前就已經悄然注定。