Initial blog skeleton
This commit is contained in:
10
docs/notes/index.md
Normal file
10
docs/notes/index.md
Normal file
@@ -0,0 +1,10 @@
|
||||
# 知识点卡片
|
||||
|
||||
这里记录可复用、可检索的科研知识点。
|
||||
|
||||
适合写成一篇只讲一个概念的小卡片,例如:
|
||||
|
||||
- Transformer 中的多头注意力
|
||||
- 交叉熵与 KL 散度的关系
|
||||
- LoRA 的直觉解释
|
||||
- 检索增强生成(RAG)的基本结构
|
||||
40
docs/notes/transformer-attention.md
Normal file
40
docs/notes/transformer-attention.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: Transformer 注意力机制
|
||||
tags:
|
||||
- transformer
|
||||
- attention
|
||||
status: published
|
||||
---
|
||||
|
||||
# Transformer 注意力机制
|
||||
|
||||
## 直觉理解
|
||||
|
||||
注意力机制的本质是:
|
||||
|
||||
> 对当前 token 来说,去所有 token 里找“与我最相关的那些信息”,再把这些信息加权汇总回来。
|
||||
|
||||
## 为什么有用
|
||||
|
||||
相比 RNN 按时间步逐步传递信息,注意力可以直接建立任意两个位置之间的联系,因此更适合建模长距离依赖。
|
||||
|
||||
## 核心公式
|
||||
|
||||
$$
|
||||
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
|
||||
$$
|
||||
|
||||
其中:
|
||||
|
||||
- $Q$:当前查询
|
||||
- $K$:被检索对象的键
|
||||
- $V$:被汇总对象的值
|
||||
|
||||
## 多头注意力的意义
|
||||
|
||||
多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系,例如:
|
||||
|
||||
- 语法关系
|
||||
- 语义对齐
|
||||
- 长程依赖
|
||||
- 局部模式
|
||||
Reference in New Issue
Block a user