一句话总结
完全抛弃 RNN/CNN,仅靠注意力机制就能在机器翻译上取得 SOTA,并大幅提升训练并行度。
核心问题
序列建模的主流是 RNN,但有两个痛点:
- 时序依赖让训练难以并行
- 长距离依赖捕获困难
方法
- Self-Attention:让每个位置直接与序列中所有位置交互,复杂度
- Multi-Head:在不同子空间并行学习不同的关系
- Positional Encoding:用正弦函数注入位置信息
我的理解
关键洞察
Attention 本质上是”按内容寻址的可微查找表”。这个抽象后来撑起了整个大模型时代。
代码上其实极其简单——但这种简单是无数前人工作铺垫出来的。
相关阅读
回到 论文目录。