メインコンテンツまでスキップ

オープンソースプロジェクト

私のウェブサイトへようこそ。

私は台湾に住む AI エンジニア、Zephyr です。

ここにあるもの

現在ご覧いただいているこのページは、技術ドキュメントを書くためのものです。

  • 論文読解に関する資料は隣のページにあります:Papers
  • ブログはさらにその隣のページにあります:Blog

現在、私はいくつかの完了したプロジェクトを GitHub で公開しています。以下はそのリストです:

  1. AutoTraderX:台湾の証券取引業者のシステムに接続する練習として残した記録です。
  2. DocsaidKit:私自身が開発したツールキットです。
  3. GmailSummary:Gmail と OpenAI を接続する練習として残した記録です。
  4. WordCanvas:合成文字画像を生成するツールで、トレーニングデータの作成に使用しています。
  5. 【ディープラーニングプロジェクト】DocAligner:文書の四隅を特定するためのツールです。
  6. 【ディープラーニングプロジェクト】DocClassifier:文書の類似性を比較するためのツールです。
  7. 【ディープラーニングプロジェクト】MRZScanner:文書内の MRZ エリアを認識するツールです。

その他、まだ公開していないプロジェクトもいくつかあります。一部は開発中であり、他には開発が完了しているものの、成果が平凡で公開には至っていないものもあります。

あなたはエンジニアですか?

はい。

私は科学的な知識を活用して実際の問題を解決することが好きで、それを楽しんでいます。

数年前、画像処理に携わる人は「コンピュータビジョンエンジニア」と名乗り、テキスト処理をする人は「自然言語エンジニア」と呼ばれていました。他にも「機械学習エンジニア」や「ディープラーニングエンジニア」など、細かく分類されることがあり、小さなコミュニティ内ではこれらの職種間に微妙なヒエラルキーが存在していました。

しかし、どんな職種であっても、全員が一緒になって「AI エンジニア」を見下していたのです:

  • 「ふん!また Sense(センス)のない会社や職種、求職者が『AI』なんて言葉で箔をつけようとしてる!」

時が経ち、今や私たちは驚くべきことを目の当たりにしています。テキスト、画像、音声などの異なる次元の情報が、「基盤モデル」という波の下で高次元空間において統一されつつあり、ランキング操作やスコアリング、論文発表に欠かせないツールになっているのです!

ここで初めて、人々は気づきました。これらのエンジニアたちは実は同じことをしており、ただ次元が異なるだけなのだと。

その結果、この分野ではもはやエンジニアの種類を分けて呼ぶことはなくなりました。学術界では研究テーマが領域を超えて融合し、研究者は複数の領域を少しずつ理解していなければ、研究そのものが成り立たなくなったからです。そのため、自分自身の専門分野をはっきりと説明するのが難しい時代になりました。

この時、ふと振り返ってみると:

  • そうだ、お前のことだ!AI エンジニア!

ここは?

少し前、街をぶらぶらしていたときに偶然 Meta のオープンソースプロジェクト Docusaurus を見つけ、その機能がかなり充実していることに気づきました。

それで、「これを使ってブログを作ってみようかな」と思い立ち、Docusaurus と Github Page を組み合わせて自動デプロイを設定し、今あなたが見ているこのサイトが完成しました。

備考

驚きでしょう?なので、もし Github が壊れたら、このサイトも一緒にさようならです。

だからこそ、Github を大切にし、壊れないようにしましょう。(なんだこの結論?


「ウェブサイトを作る」ことの最大の難題は:名前をつけることだと思います。

私は日々テキストを分析する仕事をしており、例えば画像文字認識、画像詐欺検出、トピック分類、キーワード抽出などがその一部です。私の視点から見ると、テキストとは文字だけにとどまらず、画像、動画、音楽、データセット、さらには人の行動も含むと考えています。つまり、分析する価値がある、あるいは私たちがそれを分析したいと思えば、あらゆるものがテキストになり得るのです(カオスな発想?)。

そのため、最終的にこのウェブサイトの名前をこの分野に関連するものにしようと思い、DOCSAID と名付けました。

この名前は「DOC」と「SAID」という二つの単語で構成されています。その意味は大まかに次の通りです:

  • テキストが生成された瞬間、そのテキストはすでに伝えたい内容をすべて語り終えている。

では、そのテキストは一体何を語っているのでしょうか?その答えを探るには、ただそれを分析すればいいのです!

面白いことに、この名前をつけた後で、中に「AI」という文字が隠れていることに気づき、思いがけない喜びを感じました。

左側のメニューをクリックしてみてください。一部はすでに完成しています。

もし内容が空だった場合、それは私がまだ書き終えていないだけなので、少しお待ちください。

多言語対応

もう一つ重要な部分は多言語対応です。

私は主に台湾語で執筆し、その後他の言語への翻訳を行っています。

しかし、自分の能力には限界があり、翻訳作業を一人で全てこなすことはできません。そのため、市場にあるさまざまなGPTsに助けてもらいながら、この作業を完成させています。

標準的な作業プロセスとしては、各記事の段落を切り取ってGPTsに直接翻訳を依頼します。そして翻訳結果を受け取った後、目に見えるエラーを排除するために手動で校正を行います。

読んでいる際に次のような問題を見つけた場合は:

  • 誤った、または破損したリンク
  • 翻訳の誤り
  • 誤解や間違った解釈

ぜひ下にコメントを残してください。優先的に修正を進めます。

ヒント

記事全体がまだ翻訳されていない場合、それは現在作業中であることを意味します。少し時間をおいてから再度ご確認ください。

どうやってモデルを調整するの?

これがおそらくあなたが最も気になるテーマでしょう。

私が定義したテーマに基づき、提供しているモデルを使用すれば、大部分のユースケースを解決できると信じています。

ただし、より良いモデル性能が必要な場合、独自にデータセットを収集し、モデルの微調整を行う必要があります。

もしここで行き詰まってしまったとしても、心配はいりません。多くの人が同じ経験をしています。

ケース 1

提供されているプロジェクトの機能がニーズに合っていることは分かるが、調整方法が分からない。

このような場合は、直接私にメールを送ってください。必要な要件と「解決したいデータセット」を送付いただければ、モデルの微調整をお手伝いできます。これにより、より良いモデル性能を得ることが可能です。

料金はいただきませんが、期限を設定することはできません。また、実行するかどうかも保証できません。(ここが重要!)

私はオープンソースプロジェクトに取り組んでいますが、時間に余裕があるわけではありません。タイミングが合えば、モデルが自然に更新されます。その際にメールを送ることで、より良いモデル性能を得る「可能性」があります。いずれにせよ、これは双方にとってウィンウィンだと思います。

ケース 2

特定の機能を開発したいが、急いでいない。

この場合も、ぜひメールで相談してください。もし私がそのテーマに興味を持てば、喜んでお手伝いします。ただし、一定規模のデータセットを事前に用意しておいてください。興味があったとしても、十分なデータを収集する時間がない場合や、特殊なデータは特定のルートを通じてしか入手できない場合があります。

こちらも同様に料金は不要ですが、期限を設定することはできず、実行するかどうかの保証もありません。

ヒント

特定の機能が公開されているモデルコンペティション向けのものである場合、その対応はできません。これらのコンペティションには著作権や関連する制約があり、違反が報告された場合、主催者から問題提起される可能性があります。

ケース 3

特定の機能を迅速に開発したい。

時間が最優先事項である場合は、委託開発としての協力を検討できます。ご要件に基づいて適正な見積もりを提示します。

また、委託開発の所有権に関しては事前に明確にしておく必要があります。一般的には、プロジェクトの所有権は私が保持し、あなたが自由に使用できる形をお勧めします。プロジェクトの買い取りは推奨しません。それは継続的な進化という理念に反するからです。技術が進歩するにつれ、今日の解決策はすぐに新しい方法に取って代わられるかもしれません。もしプロジェクトを買い取った場合、時間の経過とともにその投資が価値を失う可能性があります。

ヒント

プロジェクトの所有権について理解できない場合は、次のように考えてみてください:

あなたは「牛乳を飲みたい」だけで、「牛を飼いたい」わけではないかもしれません。

  • 牛を飼うのは大変です。(プロジェクトを維持するエンジニアが必要)
  • 場所を取り、世話も面倒です。(トレーニング用のマシンを設置する必要があり、クラウドマシンのレンタルは高額、マシン購入は故障のリスク)
  • 暑さ寒さに弱いです。(モデル調整に苦労する)
  • 突然死ぬこともあります。(期待する成果が得られない)
  • 損失が大きいです。(プロジェクトを買い取るための出費)

さらに、ほとんどのプロジェクトで最も価値があるのはデータセットであり、その次が解決策の考え方です。

非公開のデータセットをオープンにしない限り、コードを手に入れても観賞用以上の価値は得られないでしょう。

それでもプロジェクトを買い取りたいと考える場合は、ぜひご相談ください。

備考
  • 開発プロジェクトにおいて、提供されたデータは、許可がない限り公開しません。
  • 通常の手順では、データはモデルの更新にのみ使用されます。
  • データセット提出先:docsaidlab@gmail.com

その他

「ウェブサイトのデザインがシンプルすぎる」と言わないでください!自分でも分かっています!😅

私は本業でモデル開発を行っており、普段は論文を読み、プログラムを書き、パラメータを調整していますが、ウェブデザインはその範囲外です。特に美的センスに関しては幼稚園レベルかもしれません。将来的に機会があれば、自分で学ぶか、専門家に依頼して改善する予定です。

最後に 🍹

私はこれらのオープンソースプロジェクトに多くの時間と労力を注いできました。一方で、自身のスキルを向上させること、そしてコミュニティに何か貢献することを目指しています。

私は信じています。どんなに小さな貢献でも、私たちが共により良い世界を作り上げる一部であると。

もし私のオープンソースプロジェクトが役に立ったり、私の努力を評価してくださるなら、「Buy Me A Coffee」を通じてサポートいただければ幸いです。これにより、これらのプロジェクトの維持と開発を続けることができます。また、コメントを残したり、プロジェクトにスターを付けたりするだけでも大きな励みになります。

皆さんからのご支援は、大小に関わらず、既存のプロジェクトを改良し、さらに面白い新しいツールを開発する原動力になります。

2024 Zephyr


Buy Me A Coffee