research-notes/docs/papers/attention-is-all-you-need.md

---
title: Attention Is All You Need
authors: Ashish Vaswani et al.
year: 2017
venue: NeurIPS
tags:
  - transformer
  - attention
  - sequence-modeling
status: published
---

# Attention Is All You Need

> [论文链接](https://arxiv.org/abs/1706.03762)

## 一句话总结

这篇论文提出了 Transformer，用纯注意力机制替代 RNN/CNN，显著提升了序列建模的并行性与性能。

## 研究问题

传统序列模型（RNN、LSTM）难以并行，而且建模长距离依赖时效率较低。作者希望找到一种更高效的序列到序列建模方式。

## 核心方法

Transformer 的核心由以下模块组成：

1. **Multi-Head Self-Attention**
2. **Position-wise Feed-Forward Network**
3. **Residual Connection + LayerNorm**
4. **Positional Encoding**

注意力计算的核心公式：

$$
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

## 关键创新点

- 用 self-attention 替代循环结构
- 多头注意力让模型从不同子空间捕获关系
- 编码器/解码器结构具有极强的并行性

## 实验结果

在机器翻译任务上，Transformer 达到了当时非常强的结果，同时训练速度明显快于循环模型。

## 优点

- 并行友好
- 长程依赖建模更直接
- 架构清晰，易扩展

## 局限

- 位置编码不是天然内生的
- 注意力复杂度随序列长度平方增长

## 我的理解 / 启发

这篇论文最重要的意义不只是“效果更好”，而是把序列建模的主干从“递归”切换成了“基于关系的全局交互”，从而开启了后续大语言模型的主流范式。