Remove sample content from site
This commit is contained in:
@@ -2,9 +2,11 @@
|
||||
|
||||
这里记录可复用、可检索的科研知识点。
|
||||
|
||||
适合写成一篇只讲一个概念的小卡片,例如:
|
||||
当前还没有正式发布的知识点卡片。
|
||||
|
||||
- Transformer 中的多头注意力
|
||||
- 交叉熵与 KL 散度的关系
|
||||
- LoRA 的直觉解释
|
||||
- 检索增强生成(RAG)的基本结构
|
||||
后续可以从已总结论文中继续抽取:
|
||||
|
||||
- 核心概念
|
||||
- 关键机制
|
||||
- 公式或系统设计要点
|
||||
- 适合复用的研究视角
|
||||
|
||||
@@ -1,40 +0,0 @@
|
||||
---
|
||||
title: Transformer 注意力机制
|
||||
tags:
|
||||
- transformer
|
||||
- attention
|
||||
status: published
|
||||
---
|
||||
|
||||
# Transformer 注意力机制
|
||||
|
||||
## 直觉理解
|
||||
|
||||
注意力机制的本质是:
|
||||
|
||||
> 对当前 token 来说,去所有 token 里找“与我最相关的那些信息”,再把这些信息加权汇总回来。
|
||||
|
||||
## 为什么有用
|
||||
|
||||
相比 RNN 按时间步逐步传递信息,注意力可以直接建立任意两个位置之间的联系,因此更适合建模长距离依赖。
|
||||
|
||||
## 核心公式
|
||||
|
||||
$$
|
||||
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
|
||||
$$
|
||||
|
||||
其中:
|
||||
|
||||
- $Q$:当前查询
|
||||
- $K$:被检索对象的键
|
||||
- $V$:被汇总对象的值
|
||||
|
||||
## 多头注意力的意义
|
||||
|
||||
多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系,例如:
|
||||
|
||||
- 语法关系
|
||||
- 语义对齐
|
||||
- 长程依赖
|
||||
- 局部模式
|
||||
Reference in New Issue
Block a user