Attention Is All You Need

论文链接

一句话总结

这篇论文提出了 Transformer，用纯注意力机制替代 RNN/CNN，显著提升了序列建模的并行性与性能。

传统序列模型（RNN、LSTM）难以并行，而且建模长距离依赖时效率较低。作者希望找到一种更高效的序列到序列建模方式。

Transformer 的核心由以下模块组成：

注意力计算的核心公式：


\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

在机器翻译任务上，Transformer 达到了当时非常强的结果，同时训练速度明显快于循环模型。

这篇论文最重要的意义不只是“效果更好”，而是把序列建模的主干从“递归”切换成了“基于关系的全局交互”，从而开启了后续大语言模型的主流范式。