[19.10] SATRN
Transformer 抵達戰場
On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention
Transformer 在發表後的幾年間,這陣風也陸續吹進了不同的領域。
這篇論文是 Clova AI 發表的,他們也想將 Transformer 的優勢引入 Scene Text Recognition (STR) 領域,或許能解決一些問題。
定義問題
任意形狀的文字仍困擾著廣大的研究者們。
雖然在過去幾年間,陸續有人提出一些解決方案,但這些方法的表現仍然不夠理想。特別是多數研究都還是基於文字水平排列的假設,這導致模型無法的泛化能力有限。
此時此刻,Transformer 已經發表了兩年多,BERT 已經在 NLP 領域大殺四方,作者想著:或許 Transformer 的注意力機制能夠幫助我們解決這個問題。
提示
這篇論文發表時,ViT 還沒有問世呢!