[18.11] SAR
二維注意力圖
Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition
大幅度的彎曲文字帶給辨識模型相當大的困難,在過去雖然已經有一些方法開始嘗試解決這個問題,像是使用 STN 網路來進行幾何校正等,但效果有限。
定義問題
回顧一下之前的解題方式,在面對不規則文字辨識的問題時,大概可以分為三個方向:
-
使用校正算法:比較有代表性的方法像是 RARE,他們透過 STN 網路來進行幾何校正,但扭曲嚴重的文字仍然難以處理。
-
使用注意力:在解碼文字的時候讓模型可以選擇局部的 2D 特徵,但在訓練時需要給予字元的監督資訊,訓練資料型態較為受限。
-
多方向編碼:這個方法是從四個方向上對任意方向的文字進行編碼,但架構設計比較複雜。
看了一圈,作者還是喜歡簡單的方法。
回到基於注意力的編碼器-解碼器的框架,作者基於 ResNet 和 LSTM 的架構,搭配客製化的二維注意力模組來解決不規則文字辨識的問題。