[21.05] ABCNet v2
一位元爭鋒
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting
第一版論文投稿後,得到了一些審查意見。
作者對其進行部分修改和新增一些章節,為了與第一版區分,於是將這個版本稱為 ABCNet v2。
由於大部分的內容,甚至訓練方式都一樣,我們將在這裡只討論新增的部分。想要了解 ABCNet 的基本概念,可以參考我們之前讀過的文章:
定義問題
受到其他作品的啟發,作者決定升級 ABCNet。
主要參考目標為:
- [19.11] Efficientdet: Scalable and efficient object detection
- 這篇論文中提出 BiFPN,優化 FPN 的方法,作者將這個方法應用到 ABCNet 上。
- [18.07] An intriguing failing of convolutional neural networks and the coordconv solution
- 這篇論文提出 CoordConv,探討座標信息對於 CNN 的重要性。
- [20.03] Solov2: Dynamic and fast instance segmentation
- 這篇論文採用 CoordConv,應用在實例分割上,作者也將這個方法應用到 ABCNet 上。
改進後的 ABCNet v2 有以下幾個貢獻點:
- 提出了貝茲曲線文字表示方法。(這個跟第一版一樣。)
- 提出了 BezierAlign 特徵對齊方法。(這個跟第一版一樣。)
- 使用 BiFPN,雙向多尺度金字塔全局文本特徵。(新增的部分。)
- 提出自適應端到端訓練策略。(新增的部分。)
- 新增中文辨識數據集,支援中文辨識。(新增的部分。)
- 量化模型,提高推理速度。(新增的部分。)
解決問題
我們講講新增的部分。
模型架構
座標卷積模組
這個就是我們剛提到的 CoordConv,根據過去的研究,傳統卷積在對應 (x, y) 座標和像素空間座標時有其限制。
為解決此問題,作者在這個版本上,將相對座標與特徵圖拼接,形成帶有座標信息的新特徵 ,並通過三層卷積層(核大小 3,stride 為 1,padding 為 1)輸入後續網路,增強場景文字檢測效果。
基於注意力的辨識分支
辨識分支包含六層卷積層、一層雙向 LSTM 和一個注意力模組。辨識過程中,利用先前的隱藏狀態及加權和,逐步進行字元預測。類別數為 96(僅英文字母)或 5462(中英雙語),注意力權重計算如下:
加權和:
隱藏狀態更新: