介紹

MRZ（Machine Readable Zone，機器可讀區）指護照、簽證、身分證等旅行證件上的一段特定區域，該區域內的資訊可以被機器快速讀取。 MRZ 依照國際民航組織（ICAO）第 9303 號文件的規定進行設計和生成，用於加快邊境檢查和提高資訊處理的準確性。

資訊

有興趣的讀者可以參閱： 第 9303 號文件

人們可能不知道 MRZ 是什麼，但通常手上都有一本護照，上面就有 MRZ 區塊，長得類似這樣，紅色框的部分：

除了護照之外，某些國家的身分證、駕照、簽證等證件上也有 MRZ 區塊。

我們可以看到 MRZ 區塊有幾個明顯的特點：

結構固定：不同類型的 MRZ 有不同的結構，且每個欄位的意義也是固定的。
文字區域乾淨：MRZ 背景是單色，文字是黑色，且字元間有一定的間隔。
分類簡單：MRZ 區塊的文字只有數字和大寫英文字母，全部也才 37 個候選字元。

資訊

MRZ 的結構因不同類型的證件而有所不同，主要包括以下幾種：

TD1（身分證等）： 由三行每行 30 個字元組成，共 90 個字元。
TD2（護照卡等）： 由兩行每行 36 個字元組成，共 72 個字元。
TD3（護照等）： 由兩行每行 44 個字元組成，共 88 個字元。
MRVA（簽證類型 A）： 由兩行每行 44 個字元組成，共 88 個字元。
MRVB（簽證類型 B）： 由兩行每行 36 個字元組成，共 72 個字元。

結構介紹

我們引用知名的 MRZ 解析相關的 Github 專案 Arg0s1080/mrz 來說明 MRZ 的結構：

field distribution

從上圖中我們可以明確的知道每個 MRZ 區塊的意義：

Type：證件類型，包括護照、身分證、簽證等
Country Code：發證國家代碼
Surname：姓氏
Given Names：名字
Document Number：證件號碼
National：國籍
Date of Birth：出生
Date of Expiry：有效期限
Optional：自定義欄位

文字辨識

我們這次的主題是「MRZ 文字辨識」，這個題目比較冷門，研究論文也沒幾篇。但只要把問題拆解一下，這不外乎就是個 OCR 的問題，找幾個 OCR 的模型微調一下，問題就解決了。

但是浪費啊！太浪費了！

OCR 模型通常設計用來辨識各種不同的文字類型，包括數字、大小寫字母、標點符號等，預測頭可能涵蓋數千個文字類別，這樣的模型比較複雜，且會需要更多的計算資源。

如果將這樣的模型直接應用於 MRZ 辨識，會顯得我們不夠專業，是不是？

因此，我們必須針對 MRZ 的特點，重新設計模型。這樣的專用模型能更高效地完成任務，無需處理多餘的文字類型，從而節省計算資源並提升辨識速度與準確性。

兩階段辨識

既然要設計專用的模型，我們可以將 MRZ 辨識分為兩個階段：

區域定位：使用一個輕量的模型，專注於定位圖片中的 MRZ 區塊。
文字辨識：使用一個輕量的模型，專注於辨識圖片中的 MRZ 區塊中的文字。

說做就做，我們花了半個月完成了 MRZ 定位模型，再接著花一個月完成了 MRZ 辨識模型。整體表現還算不錯，在我們自己準備的測試集上（大約 300 張 MRZ 證件），全圖正確率達到了 97.02%，ANLS 達到了 99.97%。

提示

全圖正確率和 ANLS 是我們用來評估模型性能的指標，關於這些指標的詳細介紹，請參考另外一個章節： 評估模型

資訊

由於一組 MRZ 的區域文字最少有 72 個字元，最多有 90 個字元。

經過實驗，如果我們的目標要達到全圖正確率 95% 的話，那麼 ANLS 的數值至少要 99.95% 左右。這其實不是一件容易的事情。

真的要說，這樣的做法唯一的缺點就是......

太無聊了

不管你怎麼看，我們覺得這樣「順風順水」完成這個題目，只能說是公事公辦。

既然客戶發來了需求，我們就按表操課地完成了，所以在我們交付給客戶之後，就把這個解決方案扔到了角落裡，然後開始思考新的解決方案。

如果不用兩階段辨識，那只能是單階段辨識了！

我們必須直接從原始圖像中辨識出 MRZ 區塊的文字。

單階段辨識

然後我們繼續花了三個月的時間，完成了一個單階段的 MRZ 辨識模型。效果差強人意，全圖正確率大概只有 40%，ANLS 僅達到 97%。

坦白講，我們花了比預期之外更多的時間，真的有點虧。這個問題比我們想像中的困難。有好幾次我們想著不如就算了，二階段解決方案無聊歸無聊，至少它很準啊！又何苦要找自己的麻煩？

單階段的模型的困難點有幾個：

全圖範圍搜索大小尺度不一致。
方向飄移不定的 MRZ 區塊。
為了提升細粒度感知，導致計算量爆炸。

在這個前提之下，模型又必須保持輕量，以滿足移動端應用的需求。種種因素使得模型收斂困難，且效果不佳。

資訊

詳細的技術細節我們在後面的章節中會進行介紹： 模型設計

總之，雖然我們在開發過程中一度感到很沮喪，但還是堅持做完一個段落。既然花出去的錢和時間已經不能回來，乾脆把這個方案開源出來，跟大家分享一下。

整個單階段的解決方案，我們認為只是一個「階段性的成果」。在我們心目中的完全體應該是一個更穩健、更準確的模型，且應該能夠應對更多的應用場景。

提示

我們會努力地閱讀更多論文，在未來持續改進模型的性能。

遊樂場

我們有把這個模型放在這個網頁上，你可以到遊樂場中試試看。

MRZScanner-Demo

提示

如果你在使用中有發現 Bug，為了避免遭到惡意利用，請私下通知我們，我們會盡快處理。

最後

我們在這個專案中，完成了幾項功能：

驗證了合成資料集的有效性。
完成 MRZ 區塊的定位與辨識的二階段解決方案。
整合 MRZ 定位與辨識，完成了一個單階段辨識模型。
整合所有格式的 MRZ 文件，並提供一個統一的解析介面。

如果你對這個題目感興趣，歡迎自行測試，我們期待你提供反饋給我們。

也歡迎你留下建議，我們很樂意與你交流。

結構介紹​

文字辨識​

兩階段辨識​

太無聊了​

單階段辨識​

遊樂場​

最後​

結構介紹

文字辨識

兩階段辨識

太無聊了

單階段辨識

遊樂場

最後