結果與討論

綜合之前的實驗，我們得到了一個效果不錯的模型。

這裡我們將討論一些我們在訓練過程中的一些心得和經驗。

雖然我們的模型可以達到接近 SoTA 的分數，但現實場景遠比這個資料集複雜，因此不用過於在意這個分數，我們只是想要證明我們的模型是有效的。
在實驗中，我們發現目前設計的模型架構對於 Zero-shot 的能力並不好，也就是說，模型對於新的場景，需要進行微調才能達到最佳效果。在未來我們應該要更深入地探索更具有泛化能力的模型架構。
如同模型設計的章節中提到，我們沒有辦法直接解決放大誤差的挑戰，因此使用「熱圖回歸模型」的穩定性遠高於「點回歸模型」。
我們預設使用 FastViT_SA24 作為熱圖模型的 Backbone，因為它的效果和運算量都很好。
經過實驗，BiFPN（3 層）效果優於 FPN（6 層），因此我們推薦你使用 BiFPN 作為 Neck 部分的配置。但是在我們實作的 BiFPN 中有用到 einsum 的操作，可能會導致其他推論框架的困擾，因此若你在使用 BiFPN 時候遇到轉換上的錯誤，可以考慮改為 FPN 模型。
儘管「熱圖回歸模型」表現穩定，但由於需要在高解析度的特徵圖上進行監督，因此模型的運算量遠高於「點回歸模型」。
但我們仍無法割捨「點回歸模型」的優點，包含但不限於：可以預測圖面範圍之外的角點；計算量低及快速簡單的後處理流程等。因此我們會持續探索和優化「點回歸模型」，以提升其效果。