张老师的 Transformer 讲解手稿

从直觉到代码,彻底搞懂 GPT

作者: Wayland Zhang(张老师)

基于 Bilibili 系列视频整理的完整技术书籍,涵盖 Transformer 架构的方方面面。

时间线: 视频录制 2023年12月 - 2024年3月,文字整理 2026年1月


本书定位

不是教你背公式,而是让你真正理解 Transformer 每一层在做什么。

市面上的 Transformer 教程大多停留在:

  • 贴一堆公式,看完更晕
  • "Attention is All You Need" 论文复读
  • 代码抄一遍,不知道为什么这么写

这些只是"知道",不是"理解"。真正的理解需要:

  • 几何直觉:为什么 Q×K 是点积?因为在测量相似度
  • 可视化思维:矩阵乘法用格子图一步步拆解
  • 类比记忆:大模型就是两个文件,推理就像史努比铺铁轨
  • 动手实现:从零手写 Model.py、Train.py、Inference.py

内容概览

Part主题章节
Part 1建立直觉第 1-3 章
Part 2核心组件第 4-7 章
Part 3Attention 机制第 8-12 章
Part 4完整架构第 13-17 章
Part 5代码实现第 18-20 章
Part 6生产优化第 21-22 章
Part 7架构变体第 23-25 章
Part 8部署与微调第 26-27 章
Part 9前沿进展第 28-32 章
附录Scaling Law、解码策略、FAQ附录 A-C

共 32 章 + 3 附录,约 20 万字,469 页

查看 TABLE_OF_CONTENTS.md 获取完整目录。


目标读者

读者类型能获得什么
ML 工程师深入理解架构细节,优化实现能力
后端/全栈开发者从零理解 LLM,具备 fine-tune 能力
产品经理/分析师理解技术边界,更好地与工程协作
CS 学生系统性知识结构,面试加分项

前置知识

  • 必需:Python 基础、线性代数基础(矩阵乘法)
  • 有帮助:PyTorch 基础、深度学习入门
  • 不需要:不需要看过 "Attention is All You Need" 论文

配套视频


生成 PDF

需要安装依赖:

brew install pandoc typst

然后运行:

./build-book.sh

PDF 将生成在 output/Transformer架构从直觉到实现.pdf


License

MIT License - 欢迎学习和分享


"The best way to learn is to teach."