📄️ [17.06] Transformer
新世界の起点
📄️ [18.06] GPT-1
十二層デコーダ
📄️ [18.10] BERT
十二層エンコーダ
📄️ [19.01] Transformer-XL
より長い文脈
📄️ [19.02] GPT-2
48 層デコーダ
📄️ [19.04] Sparse Transformer
疎な注意機構
📄️ [19.06] XLNet
双流注意機構
📄️ [19.07] RoBERTa
BERT のトレーニングの説明書
📄️ [19.09] ALBERT
アインシュタイン
📄️ [19.11] MQA
共有キーと値
📄️ [20.01] Scaling Laws
モデルのスケーリング法則
📄️ [20.04] Longformer
長距離注意機構
📄️ [20.05] GPT-3
96 層デコーダ
📄️ [20.07] BigBird
ビッグバード
📄️ [21.01] Switch Transformer
専門家に話をさせる
📄️ [21.04] RoFormer
回転位置エンコーディング