DocClassifier
本專案的核心功能稱為「文件分類(Document Classification」。
看到這個題目,你可能會感到疑惑:不就是個分類模型嗎,也太普通了吧!
是,又不是。
這次我們想做個非典型的分類模型,它可能應用範圍有限,但本身的樂趣性極高。
在這個專案中,我們不使用傳統的交叉熵損失函數作為最後的分類結果,而是使用相似性學習的方法來進行分類。整體效果還算不錯,有空的話不妨繼續看下去。
資訊
本專案由:kunkunlin1221 發想提出,並完成了前期的程式開發和可行性驗證。由於他沒時間寫網頁,因此把這個想法託付給我,讓我繼續完成細節並發佈在這裡。
在此特別感謝他的貢獻。
2024 © Z. Yuan
📄️ 介紹
在過去的專案經驗中,分類模型可說是最常見的機器學習任務。
📄️ 安裝
我們有提供 PyPI 上的安裝,或是從 Github 上 clone 本專案的方式來安裝。
📄️ 快速開始
我們提供了一個簡單的模型推論介面,其中包含了前後處理的邏輯。
📄️ 進階設定
調用 DocClassifier 模型時,你可以透過傳遞參數來進行進階設定。
📄️ 模型設計
一個較為完整的模型功能,都不是一蹴可幾的,中間必須經過多次的調整和設計。
📄️ 評估模型
本專案的測試資料集為私有資料集。我們僅提供這份資料集的評估結果。
📄️ 結果與討論
綜合之前的實驗,我們得到了一個效果不錯的模型。這個模型在我們的測試集上取得了 90% 以上的準確率,並且在實際應用中也取得了不錯的效果。
📄️ 模型訓練
相關訓練環境設定章節,已經遷移到:模型訓練指南
📄️ 資料集提交
真實世界千奇百怪,你一定會遇到不合用的時候。