在目前的光學字元辨識(OCR)領域的研究中,模型的準確度取決於資料集的品質和多樣性。
在此,我們列舉幾個現行研究面臨的問題:
- 資料量不足:現有的資料集規模有限,無法涵蓋所有可能的情境和樣本。
- 類別不平衡:某些類別的樣本過少,長尾分布的情況嚴重。
- 缺乏多樣性:現有資料集中的樣本過於單一,無法涵蓋現實世界中的多樣情境。
- 合成資料與真實資料差異:合成資料集與真實應用場景中的資料存在差異。
此外,比起只有數十個至數百個拉丁字母來說,漢字的數量根本就是個災難。(喂!放尊重點!)
在中文 OCR 的研究中,除了得面臨上述問題外,還衍生出更多獨特的困難點: