[21.04] RoFormer
旋轉位置編碼
RoFormer: Enhanced Transformer with Rotary Position Embedding
比起 RoFormer 這個名字,其實 RoPE 應該更廣為人知。
RoPE 是 RoFormer 的核心概念,全名為「Rotary Position Embedding」,是一種新型的位置編碼方法。
定義問題
和 RNN 或 CNN 不同,Transformer 沒有對於位置的歸納偏差。
因此,我們必須額外提供位置信息,以便模型能夠理解序列中的順序。
一般來說,位置編碼是透過將位 置信息轉換為向量形式,然後「加」到輸入的 token embedding 中。
絕對位置:三角式
在第一篇 Transformer 的論文中,採用的方法為三角函數式。