diff --git a/docs/notes/index.md b/docs/notes/index.md index 96d740a..87c57b3 100644 --- a/docs/notes/index.md +++ b/docs/notes/index.md @@ -2,9 +2,11 @@ 这里记录可复用、可检索的科研知识点。 -适合写成一篇只讲一个概念的小卡片,例如: +当前还没有正式发布的知识点卡片。 -- Transformer 中的多头注意力 -- 交叉熵与 KL 散度的关系 -- LoRA 的直觉解释 -- 检索增强生成(RAG)的基本结构 +后续可以从已总结论文中继续抽取: + +- 核心概念 +- 关键机制 +- 公式或系统设计要点 +- 适合复用的研究视角 diff --git a/docs/notes/transformer-attention.md b/docs/notes/transformer-attention.md deleted file mode 100644 index cbe1080..0000000 --- a/docs/notes/transformer-attention.md +++ /dev/null @@ -1,40 +0,0 @@ ---- -title: Transformer 注意力机制 -tags: - - transformer - - attention -status: published ---- - -# Transformer 注意力机制 - -## 直觉理解 - -注意力机制的本质是: - -> 对当前 token 来说,去所有 token 里找“与我最相关的那些信息”,再把这些信息加权汇总回来。 - -## 为什么有用 - -相比 RNN 按时间步逐步传递信息,注意力可以直接建立任意两个位置之间的联系,因此更适合建模长距离依赖。 - -## 核心公式 - -$$ -\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V -$$ - -其中: - -- $Q$:当前查询 -- $K$:被检索对象的键 -- $V$:被汇总对象的值 - -## 多头注意力的意义 - -多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系,例如: - -- 语法关系 -- 语义对齐 -- 长程依赖 -- 局部模式 diff --git a/docs/papers/attention-is-all-you-need.md b/docs/papers/attention-is-all-you-need.md deleted file mode 100644 index 0557441..0000000 --- a/docs/papers/attention-is-all-you-need.md +++ /dev/null @@ -1,63 +0,0 @@ ---- -title: Attention Is All You Need -authors: Ashish Vaswani et al. -year: 2017 -venue: NeurIPS -tags: - - transformer - - attention - - sequence-modeling -status: published ---- - -# Attention Is All You Need - -> [论文链接](https://arxiv.org/abs/1706.03762) - -## 一句话总结 - -这篇论文提出了 Transformer,用纯注意力机制替代 RNN/CNN,显著提升了序列建模的并行性与性能。 - -## 研究问题 - -传统序列模型(RNN、LSTM)难以并行,而且建模长距离依赖时效率较低。作者希望找到一种更高效的序列到序列建模方式。 - -## 核心方法 - -Transformer 的核心由以下模块组成: - -1. **Multi-Head Self-Attention** -2. **Position-wise Feed-Forward Network** -3. **Residual Connection + LayerNorm** -4. **Positional Encoding** - -注意力计算的核心公式: - -$$ -\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V -$$ - -## 关键创新点 - -- 用 self-attention 替代循环结构 -- 多头注意力让模型从不同子空间捕获关系 -- 编码器/解码器结构具有极强的并行性 - -## 实验结果 - -在机器翻译任务上,Transformer 达到了当时非常强的结果,同时训练速度明显快于循环模型。 - -## 优点 - -- 并行友好 -- 长程依赖建模更直接 -- 架构清晰,易扩展 - -## 局限 - -- 位置编码不是天然内生的 -- 注意力复杂度随序列长度平方增长 - -## 我的理解 / 启发 - -这篇论文最重要的意义不只是“效果更好”,而是把序列建模的主干从“递归”切换成了“基于关系的全局交互”,从而开启了后续大语言模型的主流范式。 diff --git a/docs/papers/index.md b/docs/papers/index.md index 9148d9f..beb5b9b 100644 --- a/docs/papers/index.md +++ b/docs/papers/index.md @@ -5,7 +5,6 @@ ## 已发布 - [Efficient Security Support for CXL Memory through Adaptive Incremental Offloaded (Re-)Encryption](aiore-cxl-security.md) -- [Attention Is All You Need](attention-is-all-you-need.md) ## 建议模板 diff --git a/docs/topics/index.md b/docs/topics/index.md index bcfa78e..5d3e2c6 100644 --- a/docs/topics/index.md +++ b/docs/topics/index.md @@ -2,10 +2,11 @@ 专题页用于把分散的论文笔记与知识点卡片组织成知识地图。 -例如: +当前还没有正式发布的专题页。 -- 大语言模型 -- 强化学习 -- 多模态 -- 图机器学习 -- AI for Science +后续可按研究方向逐步整理,例如: + +- CXL / 内存系统 +- 机密计算与 TEE +- 计算机体系结构安全 +- 系统与架构协同优化 diff --git a/docs/topics/llm.md b/docs/topics/llm.md deleted file mode 100644 index b86bb3d..0000000 --- a/docs/topics/llm.md +++ /dev/null @@ -1,18 +0,0 @@ -# 大语言模型 - -这个专题页用于组织与 LLM 相关的论文、知识点和方法梳理。 - -## 可纳入的内容 - -- Transformer 基础 -- 预训练目标 -- 指令微调 -- 对齐训练 -- RAG -- 推理优化 -- Agent 系统 - -## 当前关联内容 - -- [Attention Is All You Need](../papers/attention-is-all-you-need.md) -- [Transformer 注意力机制](../notes/transformer-attention.md) diff --git a/mkdocs.yml b/mkdocs.yml index 5aaf95b..ebb5664 100644 --- a/mkdocs.yml +++ b/mkdocs.yml @@ -67,11 +67,8 @@ nav: - 论文总结: - papers/index.md - AIORE:CXL Memory 安全支持: papers/aiore-cxl-security.md - - 示例:Attention Is All You Need: papers/attention-is-all-you-need.md - 知识点卡片: - notes/index.md - - 示例:Transformer 注意力机制: notes/transformer-attention.md - 专题: - topics/index.md - - 大语言模型: topics/llm.md - 关于: about.md