[21.11] FAST
放箭若流星趕月
FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation
每個作者都要嘲諷一次前作的低效設計,但又屢屢提出的架構只改善了一點點。
這次似乎不太一樣,這篇論文新設計了基礎架構,優化後處理方式,整體效能上有了巨大的提升。推論速度與預測精度的權衡良好,在往後幾年間都是一個很好的基準。
定義問題
作者認為現有的文字檢測方式的「後處理」流程大有問題。
如上圖所示,目前有名的檢測方法,其「後處理」佔整體時間的 30% 左右。而且這些方法的後處理都基於 CPU 上運作,很難與 GPU 的資源並行,導致明顯的效能瓶頸。
這個肯定要改!
另一方面,目前流行的檢測方法中, Backbone 的設計大多基於現有的圖像分類網路,再搭配 FPN 或 U-Net 進行特徵融合。
由於文字的形狀多樣,而且通常很長一條,這樣的設計可能不適合。
所以 Backbone 也要一起改!