[19.09] ALBERT
愛因斯 BERT
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
BERT 之後,還是 BERT。
定義問題
一個 BERT 大概有 340M 個參數,很難 Train,要 Train 很久。有了 BERT 作為基礎比較對象,後續研究開始加大模型規模,模型參數愈來愈多。
0.1B ➔ 0.3B ➔ 0.5B ➔ 1.0B ➔ 1.5B ➔ ???
這篇論文的作者說:不行,不能再更大了,我們快要 Train 不起了!
- 我們需要小的 BERT!