[19.11] MQA
共享 Key-Value
Fast Transformer Decoding: One Write-Head is All You Need
共享經濟大行其道,看來在注意力機制中也可以這樣玩。
這篇論文的作者是 Noam Shazeer,是 「Attention is all you need」 的作者群。
定義問題
作者在提出一般的注意力機制後,發現在解碼的過程中,由於使用自回歸的方式輸出,每一個位置都會計算所有的鍵值對,會導致大量的重複計算。
這樣操作非常的低效,作者認為這是一個可以改進的地方。