跳至主要内容

Transformers (16)

📄️ [17.06] Transformer

新世界的起點

📄️ [18.06] GPT-1

十二層解碼器

📄️ [18.10] BERT

十二層編碼器

📄️ [19.01] Transformer-XL

更長的上下文

📄️ [19.02] GPT-2

四十八層解碼器

📄️ [19.04] Sparse Transformer

稀疏注意力機制

📄️ [19.06] XLNet

雙流注意力機制

📄️ [19.07] RoBERTa

訓練 BERT 的說明書

📄️ [19.09] ALBERT

愛因斯 BERT

📄️ [19.11] MQA

共享 Key-Value

📄️ [20.01] Scaling Laws

模型的縮放律

📄️ [20.04] Longformer

長注意力機制

📄️ [20.05] GPT-3

九十六層解碼器

📄️ [20.07] BigBird

大鳥注意力機制

📄️ [21.01] Switch Transformer

讓專家說話

📄️ [21.04] RoFormer

旋轉位置編碼