Transformer 注意力机制¶

直觉理解¶

注意力机制的本质是：

对当前 token 来说，去所有 token 里找“与我最相关的那些信息”，再把这些信息加权汇总回来。

相比 RNN 按时间步逐步传递信息，注意力可以直接建立任意两个位置之间的联系，因此更适合建模长距离依赖。

\[ \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

其中：

多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系，例如：