一句话总结

完全抛弃 RNN/CNN,仅靠注意力机制就能在机器翻译上取得 SOTA,并大幅提升训练并行度。

核心问题

序列建模的主流是 RNN,但有两个痛点:

  1. 时序依赖让训练难以并行
  2. 长距离依赖捕获困难

方法

  • Self-Attention:让每个位置直接与序列中所有位置交互,复杂度
  • Multi-Head:在不同子空间并行学习不同的关系
  • Positional Encoding:用正弦函数注入位置信息

我的理解

关键洞察

Attention 本质上是”按内容寻址的可微查找表”。这个抽象后来撑起了整个大模型时代。

代码上其实极其简单——但这种简单是无数前人工作铺垫出来的。

相关阅读

回到 论文目录