[23.08] MixNet

Dosaid maintainer, Full-Stack AI Engineer

多尺度洗牌網路

隨著驗證資料集表現愈來愈接近飽和，研究者們決勝關鍵就落在最後文字控制點的精準度上。

而背景雜訊，可能是個不得不想辦法解決的問題。

在自然場景中偵測文本時，文本區塊往往以任意形狀與方向出現，且在小且彎曲的文字實例中，傳統以卷積神經網路為基礎的偵測方法易受到區域性雜訊與影像品質變化的干擾，而無法穩定且精準地擷取文字的全域幾何分佈特性。

作者認為這裡的問題在於現有方法集中處理局部影像特徵，忽略了整體文本幾何分佈的全域資訊，因此在面對小而彎曲的文字、受光照或背景雜訊干擾時，偵測的穩健度明顯降低。

此外，在一些常用的骨幹網路（如 ResNet、VGG、HRNet）中，提供高解析度特徵時，容易受雜訊影響而難以萃取出清晰、易於後續輪廓估測的資訊，特別對小型文字實例特別不友善。

因此，如何「兼顧高低解析度特徵間的互通性」，以減輕高解析度特徵受到雜訊干擾的負面影響，就是作者所要解決的核心問題。

model architecture

首先要解決特徵互通性的問題，由於多數 CNN 架構過度仰賴局部卷積運算，缺乏有效的跨尺度特徵交流管道，因而難以充分利用低解析度特徵所帶來的雜訊抑制能力。

在這篇論文中，作者直接提出了一個新的網路結構，結合 Backbone 和 Neck 兩個部分，讓高、低解析度特徵彼此交織，共同產生更穩健、精細且能抵抗雜訊干擾的表徵，稱為「Feature Shuffle Network」，簡稱 FSNet。

另外一個部分是基於 FSNet 所產出的特徵，進行下一步的文字實例的控制點細化，這部分稱為「Central Transformer Block」。

我們先看 FSNet 的結構。

channel shuffle network

這個結構乍看之下有點複雜，但其實是一個簡單的概念，我們畫個框來看：

方法是將每一解析度的特徵通道切割後，重新混合、上/下採樣，最後再拼接（concatenate）成新的特徵。

透過此種混合與重組，模型能更有效率地汲取各尺度特徵的優勢，產生對小型、彎曲以及低品質文字更具辨識度的特徵，詳細操作如下圖：

detail of channel shuffle network

在 FSNet 中，共設計了兩個洗牌層（Shuffle layer），第一個洗牌層接收兩個尺度的輸入特徵，而第二個洗牌層則接收三個尺度的輸入特徵。

以第二個洗牌層為例，假設我們有三組輸入特徵 $F_1, F_2, F_3$ ，其中 $F_i$ 表示第 $i$ 個解析度的特徵。洗牌層將每組特徵的通道數切分成三等份，即 $F_i$ 切分為 $F_{i1}, F_{i2}, F_{i3}$ 三部分。

接下來，根據每一部分所對應的解析度索引，將 $F_{i1}, F_{i2}, F_{i3}$ 分別上採樣或下採樣到統一大小。最後，再將來自不同解析度且經過不同倍率重製的特徵部分拼接為新的特徵表示。

如此一來，原本單一解析度的特徵就被「洗牌」成混合多個解析度訊息的新特徵。

提示

很像是之前我們看過的 ShuffleNet：

如果你還有印象，在 ShuffleNet 中，先經過「組卷積」後，對於每個組的特徵圖通道進行洗牌。在這裡的 MixNet 則是改成了對不同解析度的特徵圖進行洗牌，設計理念是非常相似的。

central transformer block

我們把剛才的架構圖切割一下，把 CTBlock 的部分拉出來看，簡單梳理一下 CTBlock 的運作流程：

輪廓線控制點（Contour points）:

一開始 CTBlock 首先透過 FSNet 所生成的熱力圖（heatmap），取得每個文本實例的粗略邊界。接著，沿著該邊界等距採樣 N 個點（實驗中 N=20）作為文字輪廓代表點。這些點的圖像特徵與對應的熱力圖值一同組成一個特徵序列，並輸入至第一個 Transformer 模組中。
中心線控制點（Central points）:

經過第一個 Transformer 模組後，即可得到描述該文字區域之中心線的特徵點序列（中心線的點數量為固定 C=10）。同樣地，這些中心線點對應的圖像特徵與熱力圖將組成另一組特徵序列。
Transformer Encoder-Decoder:

CTBlock 中所使用的 Transformer 採用 encoder-decoder 架構，其中 Encoder 包含多層 transformer block，每個 block 內有多頭自注意力機制（multi-head self-attention）與 MLP，使特徵序列能透過全域的注意力機制學習文字輪廓與中心線點的整體幾何分佈。 Decoder 由簡單的 MLP 組成，根據 encoder 所提取的特徵，預測出對每一輪廓點位的頂點偏移量（vertex offset），從而產生更精準的最終文字輪廓。