[21.08] SimVLM
簡單一點
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
當一件事情發展得太過複雜,就會讓人望之卻步:
一定要搞成這樣嗎?
在這個當下, GPT3 已經問世了,並且取得相當不錯的表現,而且他們並沒有把整件事情搞得這麼複雜呀!
本論文的作者基於這個想法,認為不要再拘泥於原本的編碼器的架構了。
或許,我們可以讓整件事情簡單一點?
定義問題
作者定義的問題包括以下幾點:
-
預訓練微調範式的缺陷
- 雖然利用掩碼語言建模 (MLM) 在大規模未標記文字語料庫上預訓練模型(例如 BERT)後進行微調已成為主流,但近期的自回歸語言模型,如:GPT-3,顯示出在無需微調的情況下,使用少量資料即能達到強大的性能。
-
多模式對應的挑戰
- 嘗試建立視覺和文字的多模式對應,但要捕捉影像和文字之間的對齊並不容易。早期的方法通常依賴於人工標記的資料集,進行物件偵測和融合模型的 MLM 預訓練。
- 由於人類註釋資料的規模有限,先前的方法不僅需要使用複雜的預訓練方案,還要引入特定於任務的輔助損失,使整個 VLP 的預訓練協議變得更為複雜。
-
缺乏零樣本能力
- 目前基於預訓練微調的方法在零樣本能力方面表現不佳,即模型在沒有看過的新任務上的泛化能力受限。
- 一些方法只關注特定的任務,因此不容易被用作通用的預訓練微調表示。例如:某些方法只專注於影像分類或圖文檢索的特定任務。