一句话总结:GPT 不是凭空出现的,它是十年 AI 发展的结晶——理解这段历史,才能真正理解 Transformer 为什么重要。
1.1 今天这一章非常轻松
今天这节课非常轻松,也是非常重要的一节概念课。
我们不讲任何数学,不写任何代码。我们来聊一聊:GPT 到底是怎么来的?
很多人第一次接触 ChatGPT 的时候,觉得这东西太神奇了,像是突然从天上掉下来的。但实际上,GPT 背后的技术——Transformer 架构——已经酝酿了将近十年。
了解这段历史有什么用?
- 建立直觉:知道为什么 Transformer 会取代 RNN、LSTM
- 理解人物关系:OpenAI、Google、Meta 这些公司之间的恩怨情仇
- 看懂趋势:2025 年的 AI Agent、World Model 是怎么演进过来的
我们先过一下这十年的关键节点,然后再深入每个阶段。
1.2 2015年:一切的起点
2015 年发生了两件大事,直接奠定了今天 AI 的格局。
1.2.1 AlphaGo 横空出世
第一件事是 AlphaGo。
Google 旗下的 DeepMind(由 Demis Hassabis 创立)做出了 AlphaGo,在围棋上击败了人类顶尖选手。这件事震惊了整个科技界——围棋的复杂度是 10^170,比宇宙中的原子数量还多,人们原本以为 AI 至少还要 10 年才能攻克。
AlphaGo 的成功证明了一件事:深度学习 + 强化学习的组合威力巨大。
1.2.2 OpenAI 成立
第二件事是 OpenAI 的成立。
2015 年底,一群硅谷大佬聚在一起,决定成立一个非营利的 AI 研究机构。创始人包括:
- Elon Musk:特斯拉、SpaceX 的老板
- Sam Altman:当时是 Y-Combinator 的 CEO
- Ilya Sutskever:Geoffrey Hinton 的学生,深度学习的核心人物
- Andrej Karpathy:后来成为特斯拉 AI 总监
他们的初衷是:AI 太重要了,不能让一家公司(比如 Google)垄断。
这个概念是很多人不清晰的:OpenAI 最初是非营利组织,目标是"确保 AI 造福全人类"。后来的商业化转型,引发了很多争议。
1.3 关键人物:他们为什么这么厉害?
在继续讲历史之前,我们来认识几个关键人物。这个是很多人忽略的——理解这些人的背景,能帮助我们理解很多技术决策。
1.3.1 Sam Altman
Sam Altman 在 2014-2019 年担任 Y-Combinator 的 CEO。Y-Combinator 是硅谷最著名的创业孵化器,孵化过 Airbnb、Dropbox、Stripe 这些独角兽。
Sam 不是技术出身,但他有一个超能力:识人用人。他知道该把什么样的人放在什么位置上。
1.3.2 Andrej Karpathy
Andrej Karpathy 在 2017-2022 年担任特斯拉的 AI 视觉总监,负责自动驾驶的视觉系统。
他有一个特点:特别会讲课。他在斯坦福开的深度学习课程(CS231n)是全球最受欢迎的 AI 课程之一。2023-2024 年他短暂回到 OpenAI,现在又出来创业了。
1.3.3 多伦多大学的传承
这张图很有意思。多伦多大学计算机系是深度学习的圣地:
- Geoffrey Hinton:深度学习之父,2024 年诺贝尔物理学奖得主
- Ilya Sutskever:Hinton 的博士生(2007-2013),OpenAI 联合创始人
- Wayland Zhang:作者本尊😁,与 Ilya 同期,计算机科学专业,没继续深造就回国创业了
- Andrej Karpathy:U of T 本科生(2005-2009),后在 Stanford 读博
包括我第一次学的时候也不明白,为什么 AI 圈子这么小?其实就是因为这几个关键的师承关系。Hinton 培养出来的学生,分散到了 Google、OpenAI、特斯拉,然后各自开枝散叶。
1.4 2017-2018年:Transformer 诞生
这是整本书最重要的时间节点。
1.4.1 那篇改变一切的论文
2017 年,Google 的研究团队发表了一篇论文:"Attention Is All You Need"。
这篇论文提出了 Transformer 架构。它的核心思想是:
不需要 RNN,不需要 CNN,只用 Attention 机制就够了。
当时很多人不以为然——RNN 和 LSTM 已经统治了 NLP 领域好几年,凭什么一个新架构就能取代它们?
但事实证明,Transformer 不仅能取代,而且效果好得多。原因我们后面的章节会详细讲,这里先记住结论:
- 并行计算:Transformer 可以并行处理整个序列,RNN 只能一个一个处理
- 长距离依赖:Transformer 天然擅长捕捉长距离的关系
1.4.2 Ilya Sutskever 的关键洞察
2018 年,OpenAI 的 Ilya Sutskever 做了一个关键决定:用 Transformer 来做语言模型。
这听起来很简单,但当时并不是显而易见的选择。Transformer 最初是为机器翻译设计的,用它来做"预测下一个词"的语言模型,需要一些改造。
Ilya 的团队做出了 GPT-1(Generative Pre-trained Transformer),证明了这条路是可行的。
GPT 的全称是 Generative Pre-trained Transformer:
- Generative:生成式,能生成新内容
- Pre-trained:预训练,先在大量数据上训练
- Transformer:用的是 Transformer 架构
1.5 2017-2018年:OpenAI 的转型
同一时期,OpenAI 内部发生了巨大的变化。
1.5.1 从非营利到营利
2018 年,OpenAI 宣布转型为"有限营利"公司。原因很简单:训练大模型太烧钱了。
非营利组织很难筹集到足够的资金来购买 GPU、支付电费、招聘顶尖人才。Sam Altman 推动了这次转型,引入了商业投资。
1.5.2 Elon Musk 离开
也是在 2018 年,Elon Musk 退出了 OpenAI 的董事会。
官方说法是"避免与特斯拉的利益冲突"(特斯拉也在做 AI)。但很多人猜测,真正的原因是 Musk 对 OpenAI 的商业化方向不满。
这埋下了后来很多故事的伏笔。
1.6 2019-2023年:大模型竞赛
接下来的几年,是大模型疯狂发展的时期。
1.6.1 三大阵营
到 2023 年,AI 领域形成了三大阵营:
| 公司 | 代表产品 | 特点 |
|---|---|---|
| OpenAI | GPT-2 → GPT-3 → GPT-3.5 → GPT-4 | 闭源,商业化最成功 |
| BERT, Transformers, Gemini | 发明了 Transformer,但商业化慢 | |
| Meta (Facebook) | PyTorch, LLaMA | 开源策略,PyTorch 成为主流框架 |
1.6.2 GPT 的进化路线
OpenAI 的 GPT 系列经历了这样的进化:
- GPT-1 (2018):证明 Transformer 可以做语言模型
- GPT-2 (2019):参数量扩大到 15 亿,效果惊艳到 OpenAI 不敢公开
- GPT-3 (2020):1750 亿参数,展现了"涌现能力"
- InstructGPT (2022):加入人类反馈强化学习(RLHF)
- GPT-3.5 / ChatGPT (2022.11):面向大众的对话产品,引爆全球
- GPT-4 (2023):多模态,能理解图片
2022 年 11 月 ChatGPT 发布,是 AI 历史上的分水岭。它让普通人第一次感受到"AI 真的能聊天"。
1.7 2023年:OpenAI 的宫斗大戏
2023 年 11 月,发生了一件震惊科技圈的事。
1.7.1 Sam Altman 被解雇
OpenAI 董事会突然宣布解雇 CEO Sam Altman,理由是"他在与董事会的沟通中不够坦诚"。
Ilya Sutskever 是推动这次解雇的关键人物之一。
1.7.2 微软介入,Sam 回归
接下来的 5 天像电影一样精彩:
- 微软(OpenAI 最大投资人)宣布邀请 Sam 加入
- OpenAI 超过 90% 的员工签署联名信,要求 Sam 回归
- 董事会妥协,Sam 重新担任 CEO
- Ilya 从董事会出局,后来离开 OpenAI 创办了自己的公司
这场宫斗的深层原因,至今众说纷纭。有人说是关于 AI 安全的理念分歧,有人说是关于商业化速度的争论。
这件事告诉我们:AI 公司的治理结构很重要。技术再强,如果内部分裂,也会出大问题。
1.8 2024年:百花齐放
经历了 2023 年的动荡,2024 年 AI 领域进入了百花齐放的阶段。
1.8.1 主流玩家
现在的 AI 领域,主要玩家包括:
- OpenAI:GPT-4, Sora(视频生成)
- Google:Gemini
- Meta:LLaMA 系列(开源)
- Microsoft:phi 系列(小模型)
- Anthropic:Claude
- Mistral:欧洲的开源力量
- 中国厂商:Qwen(阿里)、Yi(零一万物)
1.8.2 Diffusion + Transformer
2024 年的一个重要趋势是 Diffusion + Transformer 的结合。
OpenAI 的 Sora 就是这个思路:用 Transformer 来理解视频的语义,用 Diffusion 来生成高质量的画面。这代表了 AI 从"文字"走向"多模态"的方向。
1.9 2025年:我们正在这里
2025 年,AI 正在往几个方向演进:
1.9.1 AI Agents(智能体)
不只是聊天,而是能自主完成任务。比如 Claude Code、OpenAI Codex,可以帮你写代码、改 Bug、提交 PR。
1.9.2 Deep Research(深度研究)
AI 能够自主搜索、阅读、总结大量资料,完成复杂的研究任务。
1.9.3 World Models(世界模型)
Fei-Fei Li(李飞飞)在推动的方向:让 AI 理解物理世界的规律,不只是语言。
1.9.4 Robotic AI(机器人 AI)
Tesla 的 Optimus 人形机器人,结合了视觉 AI 和运动控制。
1.9.5 JEPA Models
Yann LeCun(Meta 首席科学家)提出的 Joint Embedding Predictive Architecture,是他认为通往 AGI 的正确路线。
1.10 本章总结
我们来总结一下这十年的 AI 发展:
1.10.1 关键时间线
| 年份 | 事件 | 意义 |
|---|---|---|
| 2015 | AlphaGo + OpenAI 成立 | AI 复兴的起点 |
| 2017 | "Attention Is All You Need" | Transformer 诞生 |
| 2018 | GPT-1 + OpenAI 转型 | 语言模型新范式 |
| 2020 | GPT-3 | 大模型涌现能力 |
| 2022 | ChatGPT | AI 走进大众视野 |
| 2023 | GPT-4 + OpenAI 宫斗 | 多模态 + 治理问题 |
| 2024 | Sora + 百花齐放 | 多模态 + 开源崛起 |
| 2025 | Agents + World Models | 从聊天到自主行动 |
1.10.2 两个核心观点
所以说这一章的内容,核心就两点:
-
Transformer 是核心:不管是 GPT、BERT、LLaMA、Gemini,底层都是 Transformer 架构。理解了 Transformer,就理解了当代 AI 的基础。
-
规模是关键:从 GPT-1 到 GPT-4,参数量从 1 亿涨到了上万亿。"大力出奇迹"虽然简单粗暴,但确实有效。
本章交付物
学完这一章,你应该能够:
- 向朋友解释 GPT 是怎么来的(用 3 分钟讲清楚)
- 说出 OpenAI、Google、Meta 在 AI 领域的定位差异
- 理解为什么 Transformer 这么重要
下一章预告
下一章我们来聊一个很有意思的话题:大模型的本质是什么?
Andrej Karpathy 说过一句很经典的话:"大模型就是两个文件"。这句话是什么意思?我们下一章来详细拆解。
好了,这一章就到这里,拜拜!