[14.09] VGG
很深,還要更深
Very Deep Convolutional Networks for Large-Scale Image Recognition
在神經網路早期,深度的研究停滯了很久。
主要原因還是在於梯度消失問題,隨著網路深度的增加,梯度的資訊無法有效地傳遞到較早期的層,導致訓練困難。
因此在 AlexNet 之後,研究者們開始對網路的深度進行探索,並提出了一系列的深度網路結構,其中 VGG 是其中一個重要的代表。
定義問題
在過去的研究中,卷積核的大小通常是 5×5 或 7×7,而 VGG 提出了使用多個 3×3 的卷積核來代替較大的卷積核。作者認為使用「多層」小卷積核,而不是「少層」大卷積核,可以帶來幾個明顯的優勢:
-
提高決策函數的辨別力:
使用多層小卷積核(例如 3×3)的堆疊,每層之間引入非線性啟動函數(如 ReLU),可以增加模型的非線性表示能力。這使得決策函數更具辨別力,相比於單一大卷積核(例如 7×7),能夠更有效地捕捉數據中的複雜特徵。
-
減少參數數量:
假設輸入和輸出都有 C 個通道,三層 3×3 卷積堆疊需要的參數數量為: