[17.04] EAST
日出東方
EAST: An Efficient and Accurate Scene Text Detector
在全卷積網路 FCN 開始流行後,密集預測的方式解決了文字尺寸變化劇烈的問題。接著,多尺度特徵融合概念也正式走進人們的視野。U-Net 論文提出將不同層次的特徵進行拼接融合,提高了物體檢測的準確率。
既然解題的工具有了,研究者們肯定是要找個地方來用用看。
文字檢測領域也理所當然地跟上了這個潮流。
定義問題
作者整理了過去文獻所使用的文字檢測的方法,如上圖。
大多數的方法必須經過兩個以上的步驟,像是文字區域特徵計算、方向計算、區域合併等。又或是依賴手動設計的特徵,基於筆畫寬度和最大穩定極值區域之類的方法。
但不只是你不喜歡,作者也不喜歡這些方法。因為這些方法需要太多步驟了!不好用啊!
作者的目標就是希望能夠提出一個簡單且高效的方法。
解決問題
由於文字區域的大小變化很大,確定大區域文字的存在需要神經網路後期的特徵,而預測包含小區域文字的精確幾何形狀需要早期的低階資訊,因此模型需要融合多尺度的特徵。
模型架構
在上圖架構中,最左邊的黃色區塊,就是我們熟知的 Backbone 網路,可以隨意替換。在論文中,作者使用 VGG16 作為 Backbone 網路。
綠色區塊是特徵金字塔網絡,作者使用了 U-Net 作為特徵金字塔網絡,但沒有使用原始的 U-Net 結構,而是對其進行了一些修改。
這裡我們不再贅述 U-Net 的細節,有興趣的讀者可以參考:
最後是檢測頭的設計。
作者使用 U-Net 網路所輸出的「最大解析度」的特徵圖進行預測,分成三個部分:
- RBOX:由 4 個軸對齊邊界框和 1 個旋轉角度組成,共輸出 5 個通道。其中 4 個通道分別代表像素位置到矩形的上、下、左、右四個邊的距離。
- QUAD:由 4 個點組成,共輸出 8 個通道,表示四邊形的四個角頂點到像素位置的座標偏移,因為必須區分 和 ,所以共輸出 8 個通道。
- SCORE:輸出文字的分數,用來判斷是否為文字區域,共輸出 1 個通道。
輸出概念圖如下:
標籤生成
-
四邊形的分數圖生成
當幾何形狀為四邊形時的情況,分數圖中的四邊形正區域設計為原四邊形的縮小版本,如上圖 (a) 所示。對於一個四邊形 ,其中 是按順時針順序排列的頂點。
縮小四邊形的步驟如下:
-
首先計算每個頂點 的參考長度 ,公式為:
其中
-