Initial blog skeleton
This commit is contained in:
63
docs/papers/attention-is-all-you-need.md
Normal file
63
docs/papers/attention-is-all-you-need.md
Normal file
@@ -0,0 +1,63 @@
|
||||
---
|
||||
title: Attention Is All You Need
|
||||
authors: Ashish Vaswani et al.
|
||||
year: 2017
|
||||
venue: NeurIPS
|
||||
tags:
|
||||
- transformer
|
||||
- attention
|
||||
- sequence-modeling
|
||||
status: published
|
||||
---
|
||||
|
||||
# Attention Is All You Need
|
||||
|
||||
> [论文链接](https://arxiv.org/abs/1706.03762)
|
||||
|
||||
## 一句话总结
|
||||
|
||||
这篇论文提出了 Transformer,用纯注意力机制替代 RNN/CNN,显著提升了序列建模的并行性与性能。
|
||||
|
||||
## 研究问题
|
||||
|
||||
传统序列模型(RNN、LSTM)难以并行,而且建模长距离依赖时效率较低。作者希望找到一种更高效的序列到序列建模方式。
|
||||
|
||||
## 核心方法
|
||||
|
||||
Transformer 的核心由以下模块组成:
|
||||
|
||||
1. **Multi-Head Self-Attention**
|
||||
2. **Position-wise Feed-Forward Network**
|
||||
3. **Residual Connection + LayerNorm**
|
||||
4. **Positional Encoding**
|
||||
|
||||
注意力计算的核心公式:
|
||||
|
||||
$$
|
||||
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
|
||||
$$
|
||||
|
||||
## 关键创新点
|
||||
|
||||
- 用 self-attention 替代循环结构
|
||||
- 多头注意力让模型从不同子空间捕获关系
|
||||
- 编码器/解码器结构具有极强的并行性
|
||||
|
||||
## 实验结果
|
||||
|
||||
在机器翻译任务上,Transformer 达到了当时非常强的结果,同时训练速度明显快于循环模型。
|
||||
|
||||
## 优点
|
||||
|
||||
- 并行友好
|
||||
- 长程依赖建模更直接
|
||||
- 架构清晰,易扩展
|
||||
|
||||
## 局限
|
||||
|
||||
- 位置编码不是天然内生的
|
||||
- 注意力复杂度随序列长度平方增长
|
||||
|
||||
## 我的理解 / 启发
|
||||
|
||||
这篇论文最重要的意义不只是“效果更好”,而是把序列建模的主干从“递归”切换成了“基于关系的全局交互”,从而开启了后续大语言模型的主流范式。
|
||||
16
docs/papers/index.md
Normal file
16
docs/papers/index.md
Normal file
@@ -0,0 +1,16 @@
|
||||
# 论文总结
|
||||
|
||||
这里汇总结构化的论文阅读笔记。
|
||||
|
||||
## 建议模板
|
||||
|
||||
每篇论文尽量包含以下部分:
|
||||
|
||||
- 论文信息
|
||||
- 一句话总结
|
||||
- 研究问题
|
||||
- 核心方法
|
||||
- 关键创新点
|
||||
- 实验结果
|
||||
- 优点与局限
|
||||
- 我的理解/启发
|
||||
Reference in New Issue
Block a user