跳至主要内容

Transformers (17)

📄️ [17.06] Transformer

新世界的起點

📄️ [18.06] GPT-1

十二層解碼器

📄️ [18.10] BERT

十二層編碼器

📄️ [19.01] Transformer-XL

更長的上下文

📄️ [19.02] GPT-2

四十八層解碼器

📄️ [19.04] Sparse Transformer

稀疏注意力機制

📄️ [19.06] XLNet

雙流注意力機制

📄️ [19.07] RoBERTa

訓練 BERT 的說明書

📄️ [19.09] ALBERT

愛因斯 BERT

📄️ [19.11] MQA

共享 Key-Value

📄️ [20.01] Scaling Laws

模型的縮放律

📄️ [20.04] Longformer

長注意力機制

📄️ [20.05] GPT-3

九十六層解碼器

📄️ [20.07] BigBird

大鳥注意力機制

📄️ [21.01] Switch Transformer

讓專家說話

📄️ [21.04] RoFormer

旋轉位置編碼

📄️ [22.03] Chinchilla

栗鼠之眼

Cookie 使用告知

我們使用 Cookie 分析流量並提升使用者體驗。持續使用即表示您同意。詳情請見我們的隱私政策：Cookie Policy