[22.03] SIGA
字形注意力機制
Self-supervised Implicit Glyph Attention for Text Recognition
儘管引入語言模型已經是這個領域的主流手法,但還是有人願意另闢蹊徑來改善 STR 的問題。
在這篇論文中,作者嘗試對「字形」進行一系列的研究,並得到相當不錯的結果。
定義問題
關於 STR 的論文,我們也看過好幾篇了。
過去的研究中,注意力的方法大致上分為兩類:
- 隱式注意力 (Implicit Attention):指透過序列層級的文字標註,對一維或二維空間的所有位置進行注意力權重計算。這種方法的缺點是可能會出現對齊漂移的問題。
- 監督式注意力 (Supervised Attention):利用字元邊框標註來生成字元分割圖。這種方法的缺點是需要大量字元層級的標註資料,且在面對大型字元類別時較耗記憶體。
怎麼好像都不太好?
於是作者決定從「字形」的角度來思考這個問題。每個字元都有自己的字形,而字形之間的關係也是有規律可循的。如果能夠利用這些規律,或許能夠更好地找到文字的特徵。
基於這個想法,作者提出了「自我監督的隱式字形注意力 (Self-Supervised Implicit Glyph Attention, SIGA)」。這種方法可以透過自我監督的文本分割與隱式注意力對齊,生成字形結構,並在訓練過程中提升注意力的準確性。
意思就是在上面兩個解題方向中,作者選了第一個,也就是隱式注意力,並且在這個基礎上加入了一些自我監督的機制。
具體是怎麼做的呢?我們接著看下去。