Remove sample content from site

This commit is contained in:
2026-03-18 18:16:01 +08:00
parent 4c8fabb8d4
commit 9d81547d46
7 changed files with 14 additions and 136 deletions

View File

@@ -2,9 +2,11 @@
这里记录可复用、可检索的科研知识点。 这里记录可复用、可检索的科研知识点。
适合写成一篇只讲一个概念的小卡片,例如: 当前还没有正式发布的知识点卡片。
- Transformer 中的多头注意力 后续可以从已总结论文中继续抽取:
- 交叉熵与 KL 散度的关系
- LoRA 的直觉解释 - 核心概念
- 检索增强生成RAG的基本结构 - 关键机制
- 公式或系统设计要点
- 适合复用的研究视角

View File

@@ -1,40 +0,0 @@
---
title: Transformer 注意力机制
tags:
- transformer
- attention
status: published
---
# Transformer 注意力机制
## 直觉理解
注意力机制的本质是:
> 对当前 token 来说,去所有 token 里找“与我最相关的那些信息”,再把这些信息加权汇总回来。
## 为什么有用
相比 RNN 按时间步逐步传递信息,注意力可以直接建立任意两个位置之间的联系,因此更适合建模长距离依赖。
## 核心公式
$$
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$
其中:
- $Q$:当前查询
- $K$:被检索对象的键
- $V$:被汇总对象的值
## 多头注意力的意义
多头注意力可以让模型在不同表示子空间里并行建模不同类型的关系,例如:
- 语法关系
- 语义对齐
- 长程依赖
- 局部模式

View File

@@ -1,63 +0,0 @@
---
title: Attention Is All You Need
authors: Ashish Vaswani et al.
year: 2017
venue: NeurIPS
tags:
- transformer
- attention
- sequence-modeling
status: published
---
# Attention Is All You Need
> [论文链接](https://arxiv.org/abs/1706.03762)
## 一句话总结
这篇论文提出了 Transformer用纯注意力机制替代 RNN/CNN显著提升了序列建模的并行性与性能。
## 研究问题
传统序列模型RNN、LSTM难以并行而且建模长距离依赖时效率较低。作者希望找到一种更高效的序列到序列建模方式。
## 核心方法
Transformer 的核心由以下模块组成:
1. **Multi-Head Self-Attention**
2. **Position-wise Feed-Forward Network**
3. **Residual Connection + LayerNorm**
4. **Positional Encoding**
注意力计算的核心公式:
$$
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$
## 关键创新点
- 用 self-attention 替代循环结构
- 多头注意力让模型从不同子空间捕获关系
- 编码器/解码器结构具有极强的并行性
## 实验结果
在机器翻译任务上Transformer 达到了当时非常强的结果,同时训练速度明显快于循环模型。
## 优点
- 并行友好
- 长程依赖建模更直接
- 架构清晰,易扩展
## 局限
- 位置编码不是天然内生的
- 注意力复杂度随序列长度平方增长
## 我的理解 / 启发
这篇论文最重要的意义不只是“效果更好”,而是把序列建模的主干从“递归”切换成了“基于关系的全局交互”,从而开启了后续大语言模型的主流范式。

View File

@@ -5,7 +5,6 @@
## 已发布 ## 已发布
- [Efficient Security Support for CXL Memory through Adaptive Incremental Offloaded (Re-)Encryption](aiore-cxl-security.md) - [Efficient Security Support for CXL Memory through Adaptive Incremental Offloaded (Re-)Encryption](aiore-cxl-security.md)
- [Attention Is All You Need](attention-is-all-you-need.md)
## 建议模板 ## 建议模板

View File

@@ -2,10 +2,11 @@
专题页用于把分散的论文笔记与知识点卡片组织成知识地图。 专题页用于把分散的论文笔记与知识点卡片组织成知识地图。
例如: 当前还没有正式发布的专题页。
- 大语言模型 后续可按研究方向逐步整理,例如:
- 强化学习
- 多模态 - CXL / 内存系统
- 图机器学习 - 机密计算与 TEE
- AI for Science - 计算机体系结构安全
- 系统与架构协同优化

View File

@@ -1,18 +0,0 @@
# 大语言模型
这个专题页用于组织与 LLM 相关的论文、知识点和方法梳理。
## 可纳入的内容
- Transformer 基础
- 预训练目标
- 指令微调
- 对齐训练
- RAG
- 推理优化
- Agent 系统
## 当前关联内容
- [Attention Is All You Need](../papers/attention-is-all-you-need.md)
- [Transformer 注意力机制](../notes/transformer-attention.md)

View File

@@ -67,11 +67,8 @@ nav:
- 论文总结: - 论文总结:
- papers/index.md - papers/index.md
- AIORECXL Memory 安全支持: papers/aiore-cxl-security.md - AIORECXL Memory 安全支持: papers/aiore-cxl-security.md
- 示例Attention Is All You Need: papers/attention-is-all-you-need.md
- 知识点卡片: - 知识点卡片:
- notes/index.md - notes/index.md
- 示例Transformer 注意力机制: notes/transformer-attention.md
- 专题: - 专题:
- topics/index.md - topics/index.md
- 大语言模型: topics/llm.md
- 关于: about.md - 关于: about.md