モデルの評価
私たちは SmartDoc 2015 データセットをテストデータセットとして使用しました。
評価プロトコル
私たちは Jaccard Index を評価基準として使用しました。この指数は、異なる手法が正確にページの輪郭を分割する能力をまとめ、いくつかの画面でファイルオブジェクトを検出できなかった手法に対してペナルティを課します。
評価プロセスは、各画面のファイルのサイズと座標を使用して、提出された手法 S と基準真実 G の四辺形座標を透視変換し、補正後の四辺形 S0 と G0 を取得することから始まります。この変換により、すべての評価指標がファイルの座標系内で比較可能になります。各画面 f に対して、Jaccard Index (JI) を計算します。これは補正された四辺形の重なり具合を測る指標であり、定義としては検出された四辺形と基準真実四辺形の交差する多角形を、それらの和集合の多角形で割ったものです。各手法の総合スコアは、テストデータセット内のすべての画面スコアの平均値となります。
評価結果
以下は、私たちのモデルが SmartDoc 2015 データセットでの評価結果です:
モデル | bg01 | bg02 | bg03 | bg04 | bg05 | 総合評価 |
---|---|---|---|---|---|---|
FastViT_SA24 | 0.9944 | 0.9932 | 0.9940 | 0.9937 | 0.9929 | 0.9937 |
MBV2_140 | 0.9917 | 0.9901 | 0.9921 | 0.9899 | 0.9891 | 0.9909 |
FastViT_T8 | 0.9920 | 0.9894 | 0.9918 | 0.9896 | 0.9888 | 0.9906 |
LC100 | 0.9908 | 0.9877 | 0.9905 | 0.9894 | 0.9854 | 0.9892 |
LC050 | 0.9847 | 0.9822 | 0.9865 | 0.9811 | 0.9722 | 0.9826 |
PReg-LC050-XAtt | 0.9663 | 0.9606 | 0.9664 | 0.9630 | 0.9199 | 0.9596 |
パラメータ設定
以下の表は、各モデルで使用されるパラメータ設定です:
モデル名 | モデルタイプ | モデル設定 |
---|---|---|
FastViT_SA24 | ヒートマップ | fastvit_sa24 |
MBV2-140 | ヒートマップ | mobilenetv2_140 |
FastViT_T8 | ヒートマップ | fastvit_t8 |
LC100 | ヒートマップ | lcnet100 |
LC050 | ヒートマップ | lcnet050 |
PReg-LC050-XAtt | ポイント | lcnet050 |
例えば、LC050 モデルを使用したい場合、次のように呼び出します:
from docaligner import DocAligner
model = DocAligner(model_type='heatmap', model_cfg='lcnet050')
総合比較
以下の表は、各モデル名に基づくパラメータ数、FP32 サイズ、FLOPs、および総合スコアの比較です:
モデル名 | パラメータ数 (M) | FP32 サイズ (MB) | FLOPs(G) | 総合スコア |
---|---|---|---|---|
FastViT_SA24 | 20.8 | 83.1 | 8.5 | 0.9937 |
MBV2-140 | 3.7 | 14.7 | 2.4 | 0.9909 |
FastViT_T8 | 3.3 | 13.1 | 1.7 | 0.9906 |
LC100 | 1.2 | 4.9 | 1.6 | 0.9892 |
LC050 | 0.4 | 1.7 | 1.2 | 0.9826 |
PReg-LC050-XAtt | 1.1 | 4.5 | 0.22 | 0.9596 |
ヒント
モデルの選択は、トレードオフのプロセスです。より小さいモデルが必要な場合は、LC050
が良い選択ですが、総合スコアは低くなります。逆に、デフォルトの FastViT_SA24
を使用することができますが、欠点はスペースを多く占めることです。