DocClassifier

本專案的核心功能稱為「文件分類（Document Classification」。

title

看到這個題目，你可能會感到疑惑：不就是個分類模型嗎，也太普通了吧！

是，又不是。

這次我們想做個非典型的分類模型，它可能應用範圍有限，但本身的樂趣性極高。

在這個專案中，我們不使用傳統的交叉熵損失函數作為最後的分類結果，而是使用相似性學習的方法來進行分類。整體效果還算不錯，有空的話不妨繼續看下去。

資訊

本專案由：kunkunlin1221 發想提出，並完成了前期的程式開發和可行性驗證。由於他沒時間寫網頁，因此把這個想法託付給我，讓我繼續完成細節並發佈在這裡。

在此特別感謝他的貢獻。

2024 © Z. Yuan

📄️ 介紹

在過去的專案經驗中，分類模型可說是最常見的機器學習任務。

我們有提供 PyPI 上的安裝，或是從 Github 上 clone 本專案的方式來安裝。

我們提供了一個簡單的模型推論介面，其中包含了前後處理的邏輯。

調用 DocClassifier 模型時，你可以透過傳遞參數來進行進階設定。

一個較為完整的模型功能，都不是一蹴可幾的，中間必須經過多次的調整和設計。

本專案的測試資料集為私有資料集。我們僅提供這份資料集的評估結果。

綜合之前的實驗，我們得到了一個效果不錯的模型。這個模型在我們的測試集上取得了 90% 以上的準確率，並且在實際應用中也取得了不錯的效果。

相關訓練環境設定章節，已經遷移到：模型訓練指南

真實世界千奇百怪，你一定會遇到不合用的時候。