オープンソースプロジェクト

今見ているこのページは、技術的な文書を書くためのものです。

関連する論文を読みたい場合は、こちらにアクセスしてください：Papers。
技術的な知見やディスカッションをもっと知りたい場合は、こちらを参照してください：Blog。

📂 公開プロジェクト一覧

現在、私たちは Github にいくつかの完成したプロジェクトを公開しています。その中には以下のものがあります：

ツールと統合系

AutoTraderX：

これは、台湾の証券取引業者のシステムを統合する練習の記録です。現在、「元富証券」の API だけを探求しており、次に「富邦証券」の探索を予定していますが、まだ時間を確保していません。

ヒント
開発の感想を聞かれたら？それは少しトラウマがあるかもしれません。😓
他の証券会社がもっと良い開発体験を提供してくれることを願っています。
Capybara：

ここでは、コンピュータビジョン分野でよく使われる構造、例えば Boxes、Polygons、Keypoints などを定義しています。

その他にも、画像処理（opencv）、モデルアーキテクチャ（pytorch）、推論ツール（onnxruntime）、および環境設定の内容も含まれています。これらは私たちが仕事でよく使うツールです。
DocsaidKit（廃止済み）：

これは最初に作成したツールキットですが、しばらく使用した後、このツールキットを分割することを決定しました。PyTorch 関連のトレーニングツールを削除し、モデル推論および画像処理関連の機能のみを保持しました。

最終的にこのプロジェクトは 3 つに分割されました：
- Capybara：モデル推論および画像処理関連の機能。
- Chameleon：純粋な PyTorch トレーニングツール。
- Otter：PyTorch-Lightning を基盤としたトレーニングツール。
これらのモジュールを分割することで、トレーニングやデプロイのプロセスがより柔軟になり、保守もしやすくなりました。

現在、すべての DocsaidKit に依存しているプロジェクトは新しいモジュールに更新されており、このプロジェクトはすでにメンテナンスを終了しています。関連するドキュメントも削除され、このページは記念として残されています。

ヒント
「このパッケージの名前、どういうこと？飲みすぎた？」と疑問に思うかもしれませんが 🤔🤔🤔
そんなことはありません！今や主要な研究機関の論文でも奇抜な名前が飛び交っています。我々はそれに敬意を表しているのです…（？）
GmailSummary：

これは、Gmail と OpenAI を統合する練習の記録です。中の内容は、今後 Google や OpenAI の API が更新されると動作しなくなる可能性があります。

このプロジェクトは数ヶ月間動作していましたが、現在は OpenAI への支払いが終了したため、作業は停止しています。
Nginx Notes：

これはプロジェクトではなく、Nginx の学習過程でのメモです。主に、よく使う設定やテクニックを記録するためのものです。学んだことをその都度書き留めていきます。もし Nginx に興味があれば、ぜひチェックしてみてください。
WordCanvas：

以前、合成トレーニングデータを作成するためのツールをいくつか完成させましたが、散らばっていたので、基本的な機能を抽象化して新しいツールとして統合しました。このプロジェクトの主な機能は、フォントファイルを画像にレンダリングすることです。

ディープラーニングプロジェクト

DocAligner：

これは文書アライメントのプロジェクトで、文書の四隅を検出する機能です。

この機能はシンプルですが、多くのアプリケーションシナリオで役立つことがあります。現在は四隅の検出のみですが、時間があれば他の機能も追加予定です。
DocClassifier：

これは文書分類のプロジェクトで、文書を異なるカテゴリに分類する機能です。

このプロジェクトにはトレーニングモジュールが公開されており、私の各モデルプロジェクトは同じ構築ロジックを使用しています。他のモデルに興味がある場合は、このプロジェクトを参考にして、あなた自身のトレーニング環境を構築できます。
MRZScanner：

これは文書上の MRZ 領域を認識する機能です。

最初は End-to-End のモデルを作ろうと思っていましたが、最終的な結果は期待通りではありませんでした。それでもいくつかの成果がありましたので、このプロジェクトを整理してオープンソース化しました。これが必要な方々に役立つことを願っています。

cifar100_training_demo：

これは CIFAR-100 データセットの訓練用サンプルプロジェクトで、PyTorch を使ったモデル訓練の方法を示すことを目的としています。

プロジェクトにはデータ前処理、モデル定義、訓練・検証の一連の流れが含まれており、初心者の参考に適しています。

🚧 開発中および非公開プロジェクト

上記の公開プロジェクト以外にも、いくつかのプロジェクトが開発中または内部テスト段階にあります。

特に興味があるトピックやアイデアがあれば、お気軽にご連絡ください。

🌍 多言語対応

現在、私たちは主に中国語で文書を作成し、他の言語への翻訳を行っています。

限られた能力の中で、すべての翻訳作業を引き受けることはできないため、この部分は市場に出ている各種の GPTs に手伝ってもらい、翻訳結果を得た後に人工的な校正を行い、目に見えるエラーを排除しています。

もし、読み進める中で以下のような問題を発見した場合：

リンクの誤りや壊れたリンク
誤った翻訳
誤った理解

コメント欄に書き込んでいただければ、修正を行います。

備考

他の方法として、GitHub のディスカッションフォーラムで質問を投稿することもできます：

または、直接 PR を送っていただければ、確認後にプロジェクトのメインラインにマージできますので、時間と手間を省けます。

🍹 最後に

もし質問があったり、私たちの仕事に興味があれば、お気軽にご連絡ください：

docsaidlab@gmail.com

メールを送るか、サイト上の適切な場所にコメントを残してください。どちらも確認いたします。

お読みいただき、ありがとうございました。ここがあなたにとって助けやインスピレーションとなることを願っています！

📂 公開プロジェクト一覧​

ツールと統合系​

ディープラーニングプロジェクト​

🚧 開発中および非公開プロジェクト​

🌍 多言語対応​

🍹 最後に​