Name: Transformer 架构：从直觉到实现
Author: Wayland Zhang

为什么写这本书

2023 年底，我在 Bilibili 上发布了一系列讲解 Transformer 的视频。最初只是想把自己学习的过程记录下来，没想到收到了很多观众的反馈："张老师，能不能出个文字版？视频看完就忘了，想要能反复查阅的资料。"

这本书就是那个"文字版"。

但它不是视频的简单转录。在整理的过程中，我重新思考了每一个概念的讲解顺序，补充了大量视频中一笔带过的细节，修正了一些当时理解不够准确的地方，并加入了 2024-2025 年的最新进展——从 OpenAI 的 o1/o3 到 DeepSeek 的 R1，从 Mixture of Experts 到 Mamba 架构。

这些内容在我录制视频时还不存在。AI 领域的发展速度，确实超出了所有人的预期。

这本书的写作理念

直觉优先，公式其次。

我见过太多技术书籍，上来就是一堆公式，读者还没建立起任何直觉，就被符号淹没了。这本书的每一章都遵循同样的结构：

先讲"为什么" —— 这个东西要解决什么问题？
再建立直觉 —— 用类比、图示、几何解释让你"感受"到它
然后看公式 —— 有了直觉之后，公式只是精确的描述
最后写代码 —— 能跑起来的代码，才是真正的理解

如果你读完一章，能用自己的话向别人解释清楚，而不是只会背公式——那这一章就成功了。

谁适合读这本书

这本书适合你，如果：

你用过 ChatGPT，想知道它背后是怎么工作的
你看过一些 Transformer 的介绍，但总觉得似懂非懂
你想从零实现一个 GPT，而不是只会调 API
你是算法工程师，需要一本能快速查阅的中文参考书
你想跟上 2024-2025 年的 AI 前沿进展

这本书可能不适合你，如果：

你是深度学习的完全新手（建议先学习基础的神经网络知识）
你需要严格的数学证明（这不是一本学术专著）
你只想快速调用现成的模型（直接用 Hugging Face 就好）

如何阅读这本书

快速入门（1-2 天）： Part 1 全部 → 第 10 章（QKV）→ 第 15 章（完整前向传播）

系统学习（1-2 周）： Part 1-5 顺序阅读，跟着敲代码

生产部署（按需）： Part 6-8，重点关注 Flash Attention、KV Cache、量化

前沿追踪（2024-2025）： Part 9，了解 RLHF、MoE、推理模型、后 Transformer 架构

每章结尾都有"本章交付物"清单，你可以用它检验自己是否真正理解了。

关于代码

本书的代码都可以实际运行。我选择从零手写而不是调用框架，是因为：

# 这行代码：
output = nn.MultiheadAttention(embed_dim, num_heads)(query, key, value)

# 不如这样写更能帮助理解：
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
scores = scores.masked_fill(mask == 0, -1e9)
attention_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attention_weights, V)

当你能写出第二种代码时，你才真正理解了 Attention。

致谢

感谢所有在 Bilibili 上留言、提问、纠错的观众。你们的反馈让我意识到哪些地方讲得不够清楚，哪些地方需要补充。这本书的很多改进，都来自于你们的问题。

感谢 Geoffrey Hinton、Ilya Sutskever、Andrej Karpathy 等前辈的公开课程和分享。站在巨人的肩膀上，我们才能看得更远。

感谢我的家人，容忍我在深夜和周末对着电脑自言自语地录视频、写文档。

最后，感谢你选择阅读这本书。希望它能帮助你真正理解 Transformer，而不只是"知道"它。

Wayland Zhang（张老师）

时间线: 原视频录制 2023年12月 - 2024年3月，文字整理 2026年1月

"The best way to learn is to teach."

勘误与反馈

如果你发现书中的错误，或有任何建议，欢迎通过以下方式联系我：

Bilibili: @LLM张老师
GitHub: github.com/WaylandZhang

我会持续更新和修正内容。技术书籍难免有疏漏，感谢你的理解和帮助。