AlphaGo 十年：一步棋改变了 AI 的方向

嘉宾：Thore Graepel（Google DeepMind 杰出研究科学家，AlphaGo 核心架构师）、Pushmeet Kohli（Google DeepMind Science 负责人）主持：Hannah Fry 教授来源：Google DeepMind Podcast · 54 分钟

2016 年 3 月，首尔一间酒店套房里，18 次围棋世界冠军 Lee Sedol 和一个神经网络对弈。七天后，比分定格在 4:1。十年过去了，那场比赛中诞生的技术思路——让机器通过自我博弈超越人类认知——已经延伸到蛋白质折叠、数学证明和算法发现。

这期播客请到了两位当事人：Thore Graepel 是 AlphaGo 项目的核心架构师，也是围棋高手，在首尔现场亲历了整场比赛；Pushmeet Kohli 领导 DeepMind 的科学应用团队，推动了 AlphaFold、AlphaTensor、AlphaEvolve 等后续项目。他们从亲历者的视角，讲述了从一盘围棋到改变科学研究方式的完整故事。

围棋：AI 的完美试炼场

围棋的规则可以在五分钟内学会，但它产生的博弈状态数量是 10 的 170 次方——远超宇宙中原子的数量。1997 年 IBM 的 Deep Blue 用暴力搜索击败了国际象棋世界冠军，但围棋的搜索空间比国际象棋大了无数个数量级，暴力计算行不通。

Thore Graepel 说：“围棋规则如此简单，却能产生如此复杂的策略和战术。Deep Blue 赢了国际象棋之后，围棋就成了下一个公开挑战。没有人预计它会很快被攻克。”

Thore 到 DeepMind 上班的第一天，David Silver 就把他拉到一张桌子前，让他和 AlphaGo 的雏形版本对弈。那时这个系统甚至还没有名字，只是一个实习项目，用了几十万局网上的棋局做训练。Thore 选择了保守策略——“别犯错就行”。但这恰恰是那个版本最擅长应对的：它在专业棋局上训练过，完全知道如何应付常规下法。

“我的局面越来越差，最终以微弱差距输了。但我获得了一个头衔——第一个正式输给 AlphaGo 的人。这是一种很好的自我介绍方式。一种令人谦卑的方式。”

快思考与慢思考：AlphaGo 的大脑

AlphaGo 的核心设计借鉴了人类的围棋思维方式。

Pushmeet Kohli 说，围棋的困难不仅在于每一步可选的落子点多（200-300 个，国际象棋只有 20-30 个），还在于一盘棋的回合数远超国际象棋，需要更长的推理链。

AlphaGo 的解决方案是把两种思维结合起来：策略网络（policy network）负责"快思考"，看一眼棋盘就判断哪些位置值得考虑，像人类棋手的直觉；价值网络（value network）加上蒙特卡洛树搜索负责"慢思考"，显式推演"我走这步，对手可能走那步，然后我再走这步"。

Thore 认为，这和人类下棋的心理过程高度吻合——人类棋手也从不考虑所有可能的落子，而是凭直觉锁定几个"看起来就对"的选择，然后再深入计算。

“深度学习在 2012 年之后刚好成熟到可以学习这些近似函数。时机完美。”

团队需要一个真正的专业棋手来测试系统。他们找到了当时的欧洲围棋冠军 Fan Hui，从波尔多请来伦敦，安排了 10 局测试赛。Thore 和 David Silver 打了一个赌——Thore 认为 AlphaGo 至少会输一局，David 认为会 10:0 横扫。赌注是输的人要穿成日本古代棋师的样子在办公室待一天。

结果是 10:0。Thore 穿上了那身衣服。

第 37 手：机器第一次超越人类直觉

2016 年 3 月，AlphaGo 团队飞往首尔挑战 Lee Sedol。Lee Sedol 被比作围棋界的费德勒，拥有惊人的夺冠纪录。他看过 AlphaGo 和 Fan Hui 的对局记录，认为自己更强，自信满满。但他不知道的是，AlphaGo 一直在通过训练和算法改进持续变强。

“在英国，围棋是小众活动，“Thore 说，“但在韩国，顶级棋手就是明星。我们到了那里，成群的摄影师在拍照。一群典型的计算机极客突然站在了世界的聚光灯下。”

第一局，AlphaGo 赢了。在场的一位美国职业棋手起初对 Thore 说：“我总是告诉学生不要下 AlphaGo 刚才那种蠢棋。“比赛结束后，这位棋手走过来说：“这是我经历过的最了不起的事。我很感激能亲眼见证一台机器能把围棋下到这个水平。”

第二局出现了改变历史的一幕。

评论员 Michael Redmond 在英语解说室里，把代表第 37 手的棋子放上演示板——然后退了一步，说"这一定搞错了”。他把棋子拿下来，又看了一遍屏幕，确认没有错，重新放回去。

第 37 手是一个五线肩冲。围棋常识认为，在边线的争夺中，三线和四线的推进大致公平，但如果退到五线，就意味着让出太多实地。AlphaGo 的系统计算，人类棋手下出这手棋的概率只有万分之一。

但几十手后，这步棋被证明是制胜关键。它重新定义了实地和影响力之间的权衡方式——在某些局面下，即使在五线也是划算的。

Pushmeet Kohli 认为这一刻的意义超越了围棋本身：

“人们起初以为是幻觉或错误。但随着棋局推进，它的深远影响才变得清晰。这个时刻告诉我们，终将有一天，这些系统会产生我们甚至无法立刻判断对错的洞见——但它们会彻底改变我们看待整个研究领域的方式。”

第 78 手：人类最后的神之一手

AlphaGo 连赢三局后，Lee Sedol 在第四局下出了第 78 手——一个非常规的"楔子”。

Thore 说，从那一步之后，AlphaGo 的表现明显不对劲了。“它下的棋对我们来说没有道理——不是 Move 37 那种’暂时看不懂但可能是天才’的没道理，而是连业余棋手都觉得奇怪的没道理。”

团队并非全是失望。即便 AlphaGo 已经锁定了总比分的胜利，但如果 Lee Sedol 能赢下最后两局，外界会得出什么结论？“他找到了弱点。人类的胜利。”

Lee Sedol 在赛后新闻发布会上说，他为自己感到骄傲，因为他"也许是最后一次，代表人类，找到了战胜机器的方法”。

有人称第 78 手为"神之一手”。Thore 认为，考虑到当时的紧张局势和 Lee Sedol 在那一刻超越自我的表现，这个名字恰如其分。

最终总比分 4:1，AlphaGo 赢得系列赛。围棋界的反应出人意料——围棋的关注度反而上升了。更多人开始学围棋，职业棋手用基于 AlphaGo 同类技术的程序来分析对局和教学。

AlphaZero：当你拿走人类知识

如果说 AlphaGo 与 Lee Sedol 的比赛是一次工程壮举，那么之后的 AlphaZero 则是一次科学突破。

AlphaZero 的训练中没有任何人类棋局数据。它只知道规则，从完全随机的落子开始，通过自我博弈积累经验，逐渐学会什么是好棋、什么是坏棋。

Thore 说，它的学习过程展现了一个惊人的模式：它首先重新发现了人类围棋的经典定式——那些经过几百年积累的标准下法。“我们想，太酷了，它自己找到了一样的开局。“然后，它停止使用这些定式。

“我们想，怎么回事？原来它找到了反驳。它重新发现了人类知识，然后抛弃了它，因为找到了更好的方式。”

到最后，AlphaZero 的围棋风格对 Thore 来说像外星人在下棋。“这不是我从老师那里学到的那种围棋。那些招法看起来很随意，但 30 步之后一切都说得通了——好像它有某种远见。事实上它确实有。”

Thore 认为，从纯科学角度看，AlphaZero 甚至比原始的 AlphaGo 更重要：它证明了不需要任何人类先验知识，机器就能发展出超越人类的能力。

从棋盘到蛋白质：搜索改变科学

在首尔比赛期间，纪录片团队的摄影机已经关了，但麦克风还在。它录下了 DeepMind 创始人 Demis Hassabis 和 David Silver 的一段私下对话：

“看到一个被认为不可能的问题这么快就被解决了，真的太神奇了。我们可以做蛋白质折叠。我是说，这件事太重要了。我确信我们能做到。” “我之前就觉得我们能做到。” “但现在我们肯定能做到了。”

这段话后来成了 AlphaFold 的序曲。

Pushmeet Kohli 表示，AlphaGo 打开的那扇门——如果我们能在 10^170 个状态的搜索空间中导航，那我们也能处理其他巨大的组合搜索空间——这个逻辑被系统地应用到了科学领域。

AlphaTensor 把矩阵乘法——所有神经网络和 LLM 的计算基础——变成了一个"游戏”。目标不再是赢或输，而是"你能用最少的步骤精确完成这个矩阵乘法吗？“1969 年 Strassen 提出的算法保持了 50 年纪录。AlphaTensor 打破了它。

之后的 AlphaEvolve 更进一步，直接在"所有可能的程序"空间中搜索最优算法，应用于数据中心作业调度、网络包路由等实际问题。

Hannah Fry 追问了一个关键点：如果搜索空间不再是围棋棋盘，而是"世界上所有可能的算法”，你怎么建立直觉来缩小搜索范围？

Pushmeet 承认，这些 Agent 有时发现的算法对人类来说是反直觉的。它们会发现问题中人类数学家和计算机科学家都没有注意到的对称性，然后利用这些对称性大幅提升效率。“有些时候，我们就是不理解它为什么更快。但它确实更快。”

Move 37 还是幻觉？可解释性的困境

这引出了一个核心问题：当 AI 产出一个原创结果时，你怎么确定它是 Move 37 式的突破，而不是幻觉？

Pushmeet 认为关键在于验证器（verifier）。他引用了卡尔·波普尔的"猜想与反驳"框架：AI 的生成能力相当于"猜想”——包括可能的幻觉；验证器相当于"反驳"——筛掉错误的东西。

这也解释了为什么 AI 在某些领域进展特别快：代码可以编译和测试，数学证明可以形式化验证。这些领域有现成的"反驳"机制。

DeepMind 的数学 Agent AlphaProof 可以生成数学证明，这些证明是可验证的——你可以确认它正确，即使你不完全理解它。但 Pushmeet 提出了两个新挑战：第一，如何准确地向 AI 描述问题（问题的形式化本身就很难）；第二，如何把 AI 的解决方案转换回人类可理解的形式。

Hannah Fry 半开玩笑地问：如果有一天 AI 证明了黎曼猜想，但证明过程超出了任何人类的理解能力，怎么办？

Thore 的回答很有意思：

“解释不仅需要描述现象本身，还需要匹配接收者的智力水平。未来的 AI 系统可能会给出对它们来说过于简化的解释——但对我们来说刚好能跟上。”

至于数学家的角色，Pushmeet 认为不是被取代了，而是变了——从解题者变成了提问者。“这些 Agent 能解决难以置信的问题。但什么问题值得解决？如何准确地定义问题？这是数学家和科学家的工作。”

LLM 是捷径，不是终点

对话的最后一个重要话题是 LLM 与 AlphaGo 路线的关系。

DeepMind 的创始哲学是把 Agent 放进环境中，让它们通过试错学习来增长智能。然后 LLM 出现了——Thore 称之为一条"捷径"。

“互联网上存储着巨量的结晶智能——文本、图像、视频。LLM 的捷径就是先挖掘这些数据。”

这条捷径确实成就斐然，但也有天花板：LLM 被限制在训练数据的分布之内，很难超越人类已有的知识。

Thore 认为，这正是为什么整个社区在过去几年开始重新探索 DeepMind 早期开创的方法——强化学习、环境中的自我博弈、在编码环境等可验证领域的后训练。

“我们现在进入了一个再次超越人类知识的时期。”

编者分析

嘉宾立场

两位嘉宾都是 Google DeepMind 员工，访谈发生在 DeepMind 官方播客上。他们自然倾向于将 AlphaGo 定位为整个 AI 革命的"起点"和"转折点"。这个叙事框架是真实的，但也是有选择性的。

论证中的选择性

访谈强调了 AlphaGo → AlphaZero → AlphaFold → AlphaTensor → AlphaEvolve 的线性传承，但对 LLM 路线的描述相对简单化——称之为"捷径"（shortcut），暗示基于人类数据的路线本质上是有局限的。实际上，LLM 和强化学习在现代系统中已经深度融合（如 RLHF、o1 等推理模型），很难截然分为两条独立路线。

值得注意的框架

“围棋 → 科学"的叙事省略了 DeepMind 在围棋之后、AlphaFold 之前的大量探索性项目，给人一种线性推进的印象
将 LLM 的局限性归结为"无法超越训练数据分布”，这一表述在技术上并不完全准确——思维链推理、工具使用等机制已经让 LLM 展现出超越训练分布的能力
“猜想与反驳"的框架虽然优雅，但回避了一个难题：大多数科学问题（气候、生物学、社会科学）并没有围棋或代码那样清晰的验证器

未被追问的问题

AlphaGo 团队在首尔的计算资源是多少台 TPU？这种规模的计算在当时和现在分别意味着什么？
Lee Sedol 赛后的职业生涯和心理状态（他于 2019 年退役，部分原因是 AI 的影响）
围棋界对 AI 辅助训练的态度是否一致？是否有反对声音？

核心要点

AlphaGo 的核心创新不是暴力搜索，而是"直觉+推理"的结合——策略网络提供人类级别的直觉判断，搜索算法提供深度推理，两者协同使围棋这个量级的问题变得可解
Move 37 的意义在于证明 AI 可以产生人类未曾想到的原创洞见——而不仅仅是比人类做得更快更准
AlphaZero 是更大的科学突破——去掉人类数据后性能反而提升，证明人类先验知识有时是限制而非助力
“把问题变成游戏"的范式具有惊人的通用性——从围棋到蛋白质折叠到矩阵乘法到算法搜索，同一种思路反复奏效
可验证性决定了 AI 的适用边界——代码、数学证明等有清晰验证器的领域进展最快；开放性科学问题仍是挑战

来源：Google DeepMind Podcast - 10 years of AlphaGo · 嘉宾：Thore Graepel, Pushmeet Kohli · 主持：Hannah Fry · 时长：54 分钟

☕ 如果这篇文章对你有帮助，欢迎请我喝杯咖啡，支持我继续创作更多内容。

Buy me a coffee