[20.04] Pixel-BERT
像素之語
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
在這之前,當我們談論視覺和語言模型的結合時,大部分的研究者都會採用一套約定俗成的標準作業流程:
- 首先利用物件偵測模型如 Faster R-CNN 來從影像中提取區域特徵。
- 然後結合語言模型進行跨模態學習。
- 最後開始探討跨模態學習的設計方式。
那……
是誰規定要在外掛一個「物件偵測模型」在影像編碼流程的最前面?
可能,也沒有人規定,只是不知不覺間大家就這麼做了。
如果你也曾經做過研究人員,那就會知道:要提出一篇研究論文的一個比較容易的方式,就是依循著前人的腳步,然後進行改良,嘗試提升個 1%~3% 的表現,就可以是一篇優秀的論文。
這種情況會持續到有一個突破性的方法被提出來或是評估資料集的效能飽和之後,才會進入下一輪的改朝換代。
或許在未來幾年後的新一代的研究者們就會提出疑問:為什麼「以前」的那些人們那麼愛用 Transformer 呢?
這篇論文的作者則認為,物件偵測模型的設計,可能從一開始就錯了。
物件偵測模型通常是針對特定的視覺任務設計的,這可能會引入與語言理解不相符的偏見,尤其是當物體偵測模型的視覺表徵能力受到特定任務類別的限制時。
而 Pixel-BERT 提供了一種全新的視角。它不再依賴於預先訓練的物件偵測模型,而是直接從圖像的像素學習視覺編碼。這意味著模型能夠直接捕獲「像素級」的視覺信息,包括形狀、紋理和空間關係,這些信息在物件偵測模型中可能會丟失。再加上語言編碼的部分,該模型能夠有效地捕獲視覺和語言之間的微妙交互,並學習更豐富、更細緻的跨模態表徵。