📄️ [17.06] Transformer
新世界的起點
📄️ [18.06] GPT-1
十二層解碼器
📄️ [18.10] BERT
十二層編碼器
📄️ [19.01] Transformer-XL
更長的上下文
📄️ [19.02] GPT-2
四十八層解碼器
📄️ [19.04] Sparse Transformer
稀疏注意力機制
📄️ [19.06] XLNet
雙流注意力機制
📄️ [19.07] RoBERTa
訓練 BERT 的說明書
📄️ [19.09] ALBERT
愛因斯 BERT
📄️ [19.11] MQA
共享 Key-Value
📄️ [20.01] Scaling Laws
模型的縮放律
📄️ [20.04] Longformer
長注意力機制
📄️ [20.05] GPT-3
九十六層解碼器
📄️ [20.07] BigBird
大鳥注意力機制
📄️ [21.01] Switch Transformer
讓專家說話
📄️ [21.04] RoFormer
旋轉位置編碼