メインコンテンツまでスキップ

モデルの評価

私たちは SmartDoc 2015 データセットをテストデータセットとして使用しました。

評価プロトコル

私たちは Jaccard Index を評価基準として使用しました。この指数は、異なる手法が正確にページの輪郭を分割する能力をまとめ、いくつかの画面でファイルオブジェクトを検出できなかった手法に対してペナルティを課します。

評価プロセスは、各画面のファイルのサイズと座標を使用して、提出された手法 S と基準真実 G の四辺形座標を透視変換し、補正後の四辺形 S0 と G0 を取得することから始まります。この変換により、すべての評価指標がファイルの座標系内で比較可能になります。各画面 f に対して、Jaccard Index (JI) を計算します。これは補正された四辺形の重なり具合を測る指標であり、定義としては検出された四辺形と基準真実四辺形の交差する多角形を、それらの和集合の多角形で割ったものです。各手法の総合スコアは、テストデータセット内のすべての画面スコアの平均値となります。

評価結果

以下は、私たちのモデルが SmartDoc 2015 データセットでの評価結果です:

モデルbg01bg02bg03bg04bg05総合評価
FastViT_SA240.99440.99320.99400.99370.99290.9937
MBV2_1400.99170.99010.99210.98990.98910.9909
FastViT_T80.99200.98940.99180.98960.98880.9906
LC1000.99080.98770.99050.98940.98540.9892
LC0500.98470.98220.98650.98110.97220.9826
PReg-LC050-XAtt0.96630.96060.96640.96300.91990.9596

パラメータ設定

以下の表は、各モデルで使用されるパラメータ設定です:

モデル名モデルタイプモデル設定
FastViT_SA24ヒートマップfastvit_sa24
MBV2-140ヒートマップmobilenetv2_140
FastViT_T8ヒートマップfastvit_t8
LC100ヒートマップlcnet100
LC050ヒートマップlcnet050
PReg-LC050-XAttポイントlcnet050

例えば、LC050 モデルを使用したい場合、次のように呼び出します:

from docaligner import DocAligner

model = DocAligner(model_type='heatmap', model_cfg='lcnet050')

総合比較

以下の表は、各モデル名に基づくパラメータ数、FP32 サイズ、FLOPs、および総合スコアの比較です:

モデル名パラメータ数 (M)FP32 サイズ (MB)FLOPs(G)総合スコア
FastViT_SA2420.883.18.50.9937
MBV2-1403.714.72.40.9909
FastViT_T83.313.11.70.9906
LC1001.24.91.60.9892
LC0500.41.71.20.9826
PReg-LC050-XAtt1.14.50.220.9596
ヒント

モデルの選択は、トレードオフのプロセスです。より小さいモデルが必要な場合は、LC050 が良い選択ですが、総合スコアは低くなります。逆に、デフォルトの FastViT_SA24 を使用することができますが、欠点はスペースを多く占めることです。