資料集提交
真實世界千奇百怪,你一定會遇到不合用的時候。
我們的模型也是如此,可能無法應對所有情況。
如果你在使用的過程中,發現某些情況下我們的模型無法正確處理,我們建議你提供一些資料集給我們,我們會根據你提供的資料集,進行模型的調整和優化。
我們非常感謝你願意提供資料集,並且會在第一時間進行測試和整合。
格式說明
提交資料的格式範例如下:
你可以看到,首先是一個資料集,其中有你搜集的影像,並且在同一個目錄下,有一個 gt.json
檔案,裡面包含了每張影像的標籤。
標籤格式內容必須要有:
- 影像相對路徑
- 影像中文件的「四個角點的多邊形」邊界
簡單的資料樣態可以如下列:
[
{
"file_path": "path/to/your/image.jpg",
"polygon": [
[
[0, 0],
[0, 1080],
[1920, 1080],
[1920, 0]
]
]
}
]
當你完成資料標籤後,我們建議將資料上傳至你的 google 雲端,並透過 電子郵件 提供連結給我們。我們會在收到你的資料後,盡快進行測試和整合。若你所提供的資料不符合我們的需求,我們也會在第一時間通知你。
-
不符合需求的原因可能有:
-
資料集精度不足:
例如你的資料集中,有些影像的標籤不夠精確,或者有些影像的標籤是錯誤的。
-
資料集標籤目標不明確:
我們要解決的問題是在影像中定位文件的四個角點,因此若你的資料中有超過「一個以上的目標」,或超過「四個以上的角點」,則無法使用。
-
目標物太小:
若你的目標物太小,則我們建議你要重新考慮演算法的選擇,因為我們的模型並不適合處理小目標物,也跟我們便於後處理的目標不相符。
-
資料集規模過於精緻:
就算你提供的資料只有數十張,我們也會欣然接受,但這樣的資料若用來擬合模型,則會造成過度擬合的問題,因此我們會建議你增加資料集的規模,以避免過度擬合的問題。
-
上面所提到的資料格式與命名規範並不嚴格,大致上只要包含了影像路徑和多邊形邊界即可,但是為了方便我們進行測試,請盡量遵循上面的格式。
標籤資料我們會建議你使用 LabelMe,它是一個開源的標籤工具,可以幫助你快速標註影像,並且導出成 JSON 檔案。
常見問題
-
四個角點的順序是否重要?
- 不重要。我們的訓練過程會自動排序這些角點。
-
標籤格式的要求有哪些?
- 格式上的要求不嚴格,只需包含影像路徑和多邊形邊界即可。但為了方便測試,建議盡量遵循標準格式。
-
檔案名稱的重要性如何?
- 檔案名稱不是主要關注點,只要能正確連接到相應的影像即可。
-
影像格式有何建議?
- 建議使用 jpg 格式以節省空間。
-
標籤的精度對模型訓練的影響如何?
- 標籤精度極其重要,不精確的標籤會直接影響模型訓練的效果。
-
標籤的目標物類型重要嗎?
- 是的,非常重要。
- 目標物必須是文件,且每張影像中只能有一個目標物。
-
目標物的大小對模型訓練有何影響?
- 目標物的大小很重要。我們的模型不適合處理小型目標物,因為這會影響後續處理的效率。
-
如何定義「小目標物」?
- 以 1920x1080 解析度的影像為例,如果目標物小於 32 x 32 像素,則視為小目標物。具體計算公式為
min(img_w, img_h) / 32
。
- 以 1920x1080 解析度的影像為例,如果目標物小於 32 x 32 像素,則視為小目標物。具體計算公式為
聯絡我們
若需要更多幫助,請透過電子郵件與我們聯繫:docsaidlab@gmail.com