[21.07] YATR
假的真不了
Why You Should Try the Real Data for the Scene Text Recognition
在 STR 領域,絕大多數的模型都是從合成資料開始的。
標準的做法是先使用合成資料進行預訓練,接著可以選擇直接在驗證資料集上進行評估。或是用小規模的真實資料進行微調後再進行評估。
定義問題
我們都不會否認真實資料的重要性,因為合成資料必須基於某些特定的生成規則,可能是選擇某些字型,噪音的添加,或是背景的選擇。
凡有規則必有例外,這些例外可能是合成資料無法涵蓋的,這些例外可能會對模型的泛化能力造成影響。而且對於真實世界來說,合成資料才是例外,真實資料才是規則。
用例外來擬合規則,然後跟你說這種模型有很好的泛化能力,你敢信?
這篇論文的作者認為合成資料和真實資料互相結合才是最好的訓練資料。
解決問題
模型架構
作者架構參考了 WWWSTR 的方法: