[18.07] TextSnake
文字蛇
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes
我們覺得這篇論文特別有趣,這就一起來看看吧!
定義問題
文字的形狀千奇百怪,變化多端。
然而,大多數現有的文字偵測方法都有一個強烈的假設,即文字實例大致呈線性形狀,因此採用相對簡單的表示法(軸對齊矩形、旋轉矩形或四邊形)來描述它們。儘管這些方法在標準基準測試上取得了進展,但在處理不規則形狀的文字實例(例如彎曲文字)時可能會不足。但不論是哪一種表示方式,都無法很好地擬合文字的形狀。
為了解決這個問題,作者大膽地提出了一個圓盤式的文字檢測方式,該表示法以一系列有序的、重疊的圓盤描述文本,每個圓盤位於文本區域的中心軸並與潛在可變的半徑和方向相關聯。由於其形狀類似於蛇,因此取其名稱為 TextSnake。
解決問題
表示方式
TextSnake 透過一系列重疊圓盤來表示文字,這些圓盤可以靈活應對旋轉、縮放及彎曲等變化。每個圓盤位於文字的中心線,並附有半徑與方向等幾何屬性,能適應文字的旋轉、縮放及彎曲。一個文字範例 由數個字元組成,可以視為有序的圓盤序列 :
其中 表示第 個圓盤,且總共有 個圓盤。每個圓盤 具有幾何屬性 ,其中 是圓盤的中心, 是圓盤的半徑, 是圓盤的方向。
圓盤的半徑 定義為文字寬度的一半,方向 則是中心線在中心 附近的切線方向。文字區域 可以通過計算序列 中所有圓盤的並集來重建。
提示
特別注意:這些圓盤並不對應於具體的文字字元,但這些幾何屬性可以用來矯正不規則形狀的文字,將其轉換為矩形、直線的圖像區域,方便文字辨識器處理。