research-notes/docs/notes/transformer-attention.md

---
title: Transformer 注意力机制
tags:
  - transformer
  - attention
status: published
---

# Transformer 注意力机制

## 直觉理解

注意力机制的本质是：

> 对当前 token 来说，去所有 token 里找“与我最相关的那些信息”，再把这些信息加权汇总回来。

## 为什么有用

相比 RNN 按时间步逐步传递信息，注意力可以直接建立任意两个位置之间的联系，因此更适合建模长距离依赖。

## 核心公式

$$
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

其中：

- $Q$：当前查询
- $K$：被检索对象的键
- $V$：被汇总对象的值

## 多头注意力的意义

多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系，例如：

- 语法关系
- 语义对齐
- 长程依赖
- 局部模式