Attention Is All You Need

一句话总结

完全抛弃 RNN/CNN，仅靠注意力机制就能在机器翻译上取得 SOTA，并大幅提升训练并行度。

序列建模的主流是 RNN，但有两个痛点：

Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V

关键洞察

Attention 本质上是”按内容寻址的可微查找表”。这个抽象后来撑起了整个大模型时代。

代码上其实极其简单——但这种简单是无数前人工作铺垫出来的。