評估模型
我們使用了 SmartDoc 2015 資料集作為測試資料集。
評估協議
我們使用 Jaccard Index 作為衡量標準,這個指數總結了不同方法在正確分割頁面輪廓方面的能力,並對那些在某些畫面中未能檢測到文件對象的方法進行了懲罰。
評估過程首先是利用每個畫面中文件的大小和坐標,將提交方法 S 和基準真實 G 的四邊形坐標進行透視變換,以獲得校正後的四邊形 S0 和 G0。這樣的變換使得所有的評估量度在文件參考系內是可比的。對於每個畫面 f,計算 Jaccard 指數 (JI),這是一種衡量校正四邊形重疊程度的指標,
其中定義為檢測到的四邊形和基準真實四邊形的交集多邊形除以它們的聯集多邊形。每種方法的總體分數將是測試數據集中所有畫面分數的平均值。
評估結果
下列為我們的模型在 SmartDoc 2015 資料集上的評估結果:
Models | bg01 | bg02 | bg03 | bg04 | bg05 | Overall |
---|---|---|---|---|---|---|
FastViT_SA24 | 0.9944 | 0.9932 | 0.9940 | 0.9937 | 0.9929 | 0.9937 |
MBV2_140 | 0.9917 | 0.9901 | 0.9921 | 0.9899 | 0.9891 | 0.9909 |
FastViT_T8 | 0.9920 | 0.9894 | 0.9918 | 0.9896 | 0.9888 | 0.9906 |
LC100 | 0.9908 | 0.9877 | 0.9905 | 0.9894 | 0.9854 | 0.9892 |
LC050 | 0.9847 | 0.9822 | 0.9865 | 0.9811 | 0.9722 | 0.9826 |
PReg-LC050-XAtt | 0.9663 | 0.9606 | 0.9664 | 0.9630 | 0.9199 | 0.9596 |
參數設定
下表為每個模型所使用的參數設定:
Model Name | ModelType | ModelCfg |
---|---|---|
FastViT_SA24 | heatmap | fastvit_sa24 |
MBV2-140 | heatmap | mobilenetv2_140 |
FastViT_T8 | heatmap | fastvit_t8 |
LC100 | heatmap | lcnet100 |
LC050 | heatmap | lcnet050 |
PReg-LC050-XAtt | point | lcnet050 |
例如:當你想使用 LC050 的模型,調用方法如下:
from docaligner import DocAligner
model = DocAligner(model_type='heatmap', model_cfg='lcnet050')
綜合比較
下表為根據每個模型名稱,參數量、FP32 大小、FLOPs 以及綜合分數的比較:
Model Name | Parameters (M) | FP32 Size (MB) | FLOPs(G) | Overall Score |
---|---|---|---|---|
FastViT_SA24 | 20.8 | 83.1 | 8.5 | 0.9937 |
MBV2-140 | 3.7 | 14.7 | 2.4 | 0.9909 |
FastViT_T8 | 3.3 | 13.1 | 1.7 | 0.9906 |
LC100 | 1.2 | 4.9 | 1.6 | 0.9892 |
LC050 | 0.4 | 1.7 | 1.2 | 0.9826 |
PReg-LC050-XAtt | 1.1 | 4.5 | 0.22 | 0.9596 |
提示
選擇模型就是一個取捨的過程,當你需要更小的模型,那麼 LC050
就是一個不錯的選擇,但是綜合分數就會比較低;反之,你可以用預設值 FastViT_SA24
,缺點就是佔空間。