メインコンテンツまでスキップ

Transformers (16)

📄️ [17.06] Transformer

新世界の起点

📄️ [18.06] GPT-1

十二層デコーダ

📄️ [18.10] BERT

十二層エンコーダ

📄️ [19.01] Transformer-XL

より長い文脈

📄️ [19.02] GPT-2

48 層デコーダ

📄️ [19.04] Sparse Transformer

疎な注意機構

📄️ [19.06] XLNet

双流注意機構

📄️ [19.07] RoBERTa

BERT のトレーニングの説明書

📄️ [19.09] ALBERT

アインシュタイン

📄️ [19.11] MQA

共有キーと値

📄️ [20.01] Scaling Laws

モデルのスケーリング法則

📄️ [20.04] Longformer

長距離注意機構

📄️ [20.05] GPT-3

96 層デコーダ

📄️ [20.07] BigBird

ビッグバード

📄️ [21.01] Switch Transformer

専門家に話をさせる

📄️ [21.04] RoFormer

回転位置エンコーディング