[20.05] GPT-3
九十六層解碼器
Language Models are Few-Shot Learners
第二代的 GPT 疊了四十八層 Transformer 解碼器。
OpenAI 覺得這樣不夠,於是他們繼續往上疊了九十六層 Transformer 解碼器,參數量達到史無前例的 175 B,名為 GPT-3。
定義問題
最近的工作已經證明,透過對大量文字進行預訓練,然後對特定任務進行微調,在許多 NLP 任務和基準測試中取得了巨大的成果。在我們的理想中的 NLP 技術應能像人類一樣,在接收少量指示或示例的情況下,快速適應和處理多種語言任務,但現階段的研究中還是有幾個問題,顯然和理想上還有很大的差距:
多樣化的語言任務需求
當前的語言模型面臨著適應廣泛且多樣化的語言任務的需求,從語法糾正到抽象概念生成等。每個新任務通常需要大量特定的標記數據集,這限制了模型的普遍適用性。
依賴大規模監督數據集
收集和標記大型數據集對於許多語言任務來說既昂貴又耗時。每個新任務都需要重複這一數據收集過程,這增加了開發成本並延長了部署時間。
模型的過度專業化和泛化問題
當前模型在特定任務上進行微調可能導致過度專業化,使得模型在訓練分佈之外的數據上泛化能力差。訓練中的虛假相關性可能會誤導模型,影響其長期和廣泛的應用。