メインコンテンツまでスキップ

データセットの説明

この章では、私たちが使用したデータセットについて簡単に紹介します。

これらのデータセットには、私たちのモデルを訓練およびテストするためのさまざまな文書画像が含まれています。

SmartDoc 2015

SmartDoc 2015

Smartdoc 2015 - Challenge 1 データセットは、Smartdoc 2015 コンペティションのために作成され、スマートフォンを使った文書画像取得方法の評価に重点を置いています。 Challenge 1 の特徴は、スマートフォンのプレビュー映像から抽出したビデオフレーム内の文書領域を検出および分割することです。

MIDV-500/2019

MIDV-500

MIDV-500 は、50 種類の異なる身分証明書タイプの 500 のビデオクリップで構成されており、17 の身分証明書、14 のパスポート、13 の運転免許証、6 つの異なる国のその他の身分証明書が含まれ、実際の使用ケースに基づいた広範な文書分析問題の研究に使用できます。MIDV-2019 データセットには歪んだ画像や低光量の画像も含まれています。

MIDV-2020

MIDV-2020

MIDV-2020 は 10 種類の文書タイプを含み、1000 件のアノテーション付きビデオクリップ、1000 枚のスキャン画像、1000 枚のユニークなシミュレートされた身分証明書の写真が含まれています。各文書には一意のテキストフィールド値と人工生成された顔が含まれています。

CORD v0

CORD

このデータセットは、インドネシアのレシートを含む数千枚の画像で構成されており、OCR のための画像テキスト注釈と解析のための多層的なセマンティックラベルが含まれています。提案されたデータセットは、さまざまな OCR および解析タスクの解決に使用できます。

Synthetic Dataset

Docpool

データセットの不足を考慮し、動的合成画像技術を使用しました。

簡単に言うと、まずインターネットで見つけたさまざまな証明書や文書画像を集めたテキストデータセットを収集しました。次に、Indoor データセットを背景として使用し、テキストデータをその背景に合成しました。また、MIDV-500/MIDV-2019/CORD データセットにも対応するポリゴンデータが含まれており、無駄を避けるために、これらのデータセットにさまざまな画像を合成して、データセットの多様性を増加させています。