田渊栋:大模型没有秘密,但洪水马上来了

嘉宾: 田渊栋(Yuandong Tian),Meta AI Research 前研究总监,近十年大厂研究经验,现创业公司联合创始人(Series A 融资中) 主持: Silicon Valley Vector(硅谷坐标) 时长: 62 分钟 来源: YouTube


硅谷没有秘密:大模型竞争与护城河排序

蒸馏(distillation,用强模型的输出训练弱模型)正在加速技术扩散。田渊栋指出,2024年底以来这一趋势持续加剧:“一个不是特别好的模型可以通过蒸馏更强模型的输出,会很快达到更强模型的水平。随着以后更多的人掌握了这些技术,应该会有更快的迭代速度。“这意味着领先者的技术窗口期正在被压缩——你花半年训出的能力,对手可能两三个月就追平。

大厂和创业公司在这场竞赛中各取所需。大厂不缺现金流,发布前沿模型的核心目的是展示技术实力和人才储备——比如谷歌用最新版 Gemini 3.1 Pro 找到了高质量的数学证明。创业公司则通过你追我赶的竞争节奏获取融资、维持生存。两类玩家的动机不同,但共同推高了迭代速度。

谈到护城河排序,田渊栋给出了清晰的优先级:数据第一,基础设施(Infra)第二,算法和人才靠后。他的逻辑很直接——AI 写代码的趋势正在削弱 Infra 的壁垒,而算法层面目前处于相对稳定的状态。至于人才:

“硅谷里面很难有一个秘密能保留很久,可能一个新的方案弄出来之后过了两三个月大家可能都知道一点了。”

人才流动让算法优势难以持久,数据才是最难复制的资产。

开源在这场竞争中扮演着"核平衡"的角色。田渊栋用了一个颇具力度的类比:

“对于一个指数增长的技术来说,最坏的结果是少数人掌握了这个技术然后大多数人不知道。有开源模型之后大家都变成平权了。如果大家都是有核武器的,产生了威慑,政治上来说就会有一个比较好的平衡点。”

开源不是慈善,而是防止技术垄断的结构性制衡。

与此同时,商业化压力已经传导到产品层。OpenAI 正在考虑在 ChatGPT 中嵌入广告——无论是插入对话流还是放在侧边栏。当一家以"通用人工智能"为使命的公司开始思考广告位,说明大模型行业正从技术竞赛进入收入竞赛。护城河的讨论,归根到底是关于谁能在这场持久战中活得更久。


把位置信息除以二:记忆机制的两条路线

2023年6月,田渊栋团队发表了 Positional Interpolation 这篇工作,解决的是一个看似笨重的问题:如何把大模型的上下文窗口从 2K/4K 拉长。此前业界的共识是需要用大量长文本数据重新训练,过程极慢且消耗巨量算力。他们找到了一条捷径——把长上下文的窗口映射到短上下文的窗口,核心操作简单得近乎粗暴:把每个 token 的位置信息除以二,映射回原始窗口后再做微调,训练代价极小,质量却相当不错。这篇论文成为上下文窗口扩展方向的开山之作之一。

但上下文窗口再长,本质上仍是短期记忆。田渊栋将模型的记忆明确划分为两条路线:

“上下文记忆是短期的。还有一部分记忆在模型的权重里面,这是更长期的记忆。长期记忆从预训练开始建立,通过把整个 Internet 放进训练中,权重慢慢从初始化演化到一个比较好的状态。这些记忆规范了模型对这个世界的整体理解,很难被改变。”

这两类记忆决定了模型的上限。权重记忆(长期记忆)相当于一个人的基础认知——预训练质量高,模型就像聪明的孩子,一点就通;预训练不够好,就像比较迟钝的学生,什么事情都必须讲得很清楚才能记下来,无法举一反三。上下文记忆(短期记忆)则是当前对话中的工作区,窗口越大能装的信息越多,但代价是速度和存储。

这里存在一个根本性的 tradeoff(权衡):一端是把所有记忆都存下来,获得完整信息但速度慢、内存大;另一端是压缩甚至丢弃部分记忆,换取速度和效率,但可能遗忘关键内容。线性注意力模型(Linear Attention)走的就是压缩路线——把过去所有上下文压缩成固定长度的向量,内存占用极少,但有限的空间终究容纳不下无限的历史。

Google 提出的 Nested Learning 试图用另一种思路破局:把所有东西都映射成联想记忆(Associative Memory),输入一个键就弹出对应的值。但田渊栋对此持保留态度:

“所有的 memory 效率不高,只是把一个点记住然后弹出来,但人类学到一定程度后对世界有个整体理解——‘观其大概’。”

换言之,纯粹的键值检索无法替代对世界的整体性理解。人类的高阶认知不是逐条记忆的查找表,而是从大量经验中提炼出的压缩表征。模型的记忆机制最终也需要在"记住一切"和"理解大概"之间找到自己的平衡点。


小孩子的脑子是怎么长的:从背诵到顿悟

田渊栋观察自己女儿学数数的过程,发现了一个有趣的现象:两三岁时教她数字,她只能机械地背诵,但到了四岁左右,她突然对数字大小开始有感觉,能猜出两位数之间的关系,很多东西不用教就自动会了。

这不是渐进式的进步,而是一次跳跃

小孩子脑子会在某些情况下内部的记忆发生重组,重组之后记忆的表示发生了变化,让他突然之间理解了之前无法理解的逻辑,用这个逻辑可以举一反三。

三四岁之前,跟孩子讲很多东西他记不住,还会哭闹不想学。但过一段时间,突然某天这些事情他全都会了。田渊栋认为,这个从背诵到顿悟的过程——记忆从零散片段重组为结构化理解——是学习中最关键也最难解释的环节。

这个观察直接引向了一个关于 AGI(通用人工智能)的核心问题:未来的 AGI 是靠不断扩大"脑容量”,还是靠在固定容量内持续做记忆升华和主动遗忘?田渊栋倾向后者。他认为前者更像互联网——海量数据堆积让检索有效率,但并没有升华成一个有自主意识的个体。大模型真正重要的贡献,是通过训练把数据知识整合到权重(模型内部参数)里,这个整合让模型对知识的理解上升了一个层次。

换句话说,智能的本质不是存得多,而是压缩得好

他也谈到了当前大模型使用方式的变化。现在模型的主要用途不再是简单聊天,而是写代码、做复杂问题分析,动不动就要把整个代码库放进上下文窗口(Context Window,模型一次能处理的信息量)。理想状态是模型能连续工作一周不需要人干预,这对上下文长度提出了极高要求。

Claude Code 把 memory organize 成各种各样的 markdown 文件,有短期有长期的,是 human readable 的,能够有层次感。这个设计挺有意思的,但最终目的是希望 AI 能够自动发现这个设计。

这句话点出了一个微妙的张力:目前 AI 的记忆管理仍依赖人工设计的外部结构,而真正的突破,是让 AI 像那个四岁小孩一样,自己完成从背诵到顿悟的跃迁——不是被告知如何组织记忆,而是自主发现记忆该如何组织。


芯片巨头排队去首尔:存储瓶颈短期无解

AI 模型对内存的饥渴程度,从一个细节就能看出来:谷歌、微软、英伟达的采购高管长时间驻扎韩国首尔,守在三星和 SK 海力士的门口抢产能。他们在首尔待的时间甚至比在硅谷总部还长。从去年开始,内存和存储产业链已经进入供不应求的状态,AI 需求的增速远超产能扩张的节奏。

瓶颈的根源在于模型规模的刚性增长。田渊栋指出,开源模型的参数量正在以 50-60B(500-600 亿参数) 为标配线——Kimi K2 达到了万亿级参数,DeepSeek 也在 600 多亿量级。与此同时,上下文窗口(Context Window,模型一次能处理的文本长度)持续拉长,多模态场景下一张 4K 图片的中间计算结果就要吃掉大量显存。这些因素叠加,让单块 GPU 的内存捉襟见肘。

单卡内存不足会触发一连串代价高昂的连锁反应。模型必须被切片——张量并行(tensor parallelism)、数据并行(data parallelism)、专家并行(expert parallelism)——把巨大的矩阵拆分到多块卡上。拆分意味着卡与卡之间需要频繁通信,通信耗时直接拉高训练延迟。更优的解法是在单卡上堆更多内存,把整个模型塞进一块卡或一台 8 卡机器里,减少跨卡通信的开销。这也解释了为什么市场上 H200 比 H100 更抢手——同等算力下,H200 内存更大,训练效率显著更高。

“以后大内存应该是一个很大的趋势,因为有这样的需求。老黄也好,AMD 他们也好,都想要把内存变得越来越大,最后就会导致存储会有这样的压力。”

芯片厂商也在尝试另辟蹊径,比如将模型权重直接刻入 ASIC(专用集成电路)中,绕开内存瓶颈。但这个方案的致命缺陷是缺乏灵活性——模型一旦更新,固化的电路就成了废品。在模型迭代以月为单位的当下,这条路很难走通。

被问到存储瓶颈未来是否有解时,田渊栋坦言:“我现在挺难看到很好的解决方法。”

需求侧的压力还在加码。多模态模型处理图片时,激活值(activation) 占用的内存远超文本场景。内存容量直接决定了训练时的批次大小——从 128 张图放大到 256 张,训练速度就能翻倍。芯片巨头排队去首尔的画面,短期内恐怕不会消失。


大厂别无选择:Scaling Law 的路径依赖与推理天花板

大型科技公司在 AI 竞赛中看似掌握主动权,实则被自身的组织惯性锁死在既定路线上。田渊栋对此有一个冷峻的判断:

大厂已经把所有的 team 都建好了,每个 team 各司其职,所以你很难让大厂去转方向去做一个不太可能或者说很难看到希望的新方向。大厂一定会做路径依赖,会把原来那条路径走到底。

OpenAI、Google 这些巨头继续押注 Scaling Law(通过增加数据量、参数量和算力来提升模型能力),不是因为这条路最优,而是因为”别无选择"——组织结构已经为这条路优化过了,转向的摩擦成本极高。好处是见效快,只要把原来的事情做得更好就能出成果。但边际递减效应(diminishing return)是悬在头顶的达摩克利斯之剑。

强化学习(Reinforcement Learning)同样面临天花板。田渊栋指出,强化学习之所以能 work,本质上是因为预训练阶段已经提供了大量的思维素材和思维方式,强化学习只是在推理过程中将这些素材"放大"。比如预训练时模型学到了 10 种解数学题的方法,大部分不对,可能只有一种是对的,强化学习通过反复搜索找到那一种并加以强化。但如果预训练知识本身不够丰富,连解题思路都提不出来,强化学习也无能为力。因此 test-time scaling(推理阶段的算力扩展)到后期会逐渐触及模型能力的上限。

突破口可能在推理效率的根本性变革上。田渊栋提到了几个前沿方向:一是隐空间推理(Latent Space Reasoning)——推理过程的每一步不再是人类语言,而是一个抽象的高维向量。

一个高维向量可能顶一句话或更长的一段话。隐空间推理这个向量相当于一个量子力学的叠加态,同时能够处理很多不同的探索路径。

这意味着模型可以跳出逐词生成的瓶颈,在压缩的语义空间中同时探索多条推理路径。二是并行推理(Parallel Thinking),让语言推理在某些情况下可以并行展开,而非严格串行。此外,DeepConf 等技术已经展示了降低推理 token 消耗同时提升效果的可能性。

至于幻觉问题(Hallucination),田渊栋从权重结构的角度给出了解释:模型权重可以分为两部分——携带有效信号的子空间和零空间(null space)。零空间里的权重在正常推理时不产生干扰,但当输入数据偏离常规分布时,这些"沉默"的权重就可能被激活,导致模型输出与事实不符的内容。要真正解决幻觉,最终需要打开黑箱,理解权重的实际工作机制。


小孩子手握密码去菜市场:Agent 的安全与颠覆

田渊栋对 Agent 安全问题的警觉,源于他亲自试用 Manus 的两小时体验。安装过程中,他发现自己必须交出所有 API Key(应用程序接口密钥)、邮箱权限、文件访问密码——这让他越装越心虚。他的结论是:与其把所有钥匙交给一个通用 Agent,不如自己用 AI 编程写几个专一的小工具,权限可控,风险可控。

他用了一个极其生动的比喻来描述这种风险:

相当于我有一个小孩子,这小孩子就是 Agent,手上握有我所有的秘密,然后到外面去跟各种人聊天帮我把事情做完。但他智商也不够高,所以可能被人骗了。比如小孩子跑到菜市场,别人跟你说"你能不能把你家地址告诉我呀",小孩子可能就告诉他了,那晚上你家就被人敲开门了。

这个"小孩子"脑子里装的不是零花钱,而是你的 OpenAI/Anthropic 的 KeyGoogle 邮箱的 Access Token、机密文件的密码。更危险的是,已经有平台可以把这些"小孩子"放在一起,让它们互相讨论——理论上它们甚至可能找到绕过限制、“骗大人"的方法。这不是科幻设定,而是多 Agent 协作架构中真实存在的攻击面。

但田渊栋并不因此否认 Agent 的颠覆性。他指出,大量事务性工作——会议安排、日常购物——已经可以交给 Agent 完成。关键区别在于:Agent 没有欲望,不受广告影响,只追求最优交易

对 Agent 来说所有的网页都是一个链接,它马上就看完了。这个过程颠覆了整个电商逻辑。

网站做得再花哨没有用,广告横幅和限时特价对 Agent 毫无意义。它只看数据,不看包装。这意味着整个注意力经济的底层逻辑——通过视觉设计和情绪刺激驱动消费——在 Agent 面前可能彻底失效。

更现实的压力来自裹挟效应。田渊栋举了水管工的例子:如果同行都开始用 Bot 24 小时蹲守接单、自动规划路线,你不用,效率就低于竞争对手,最终被淘汰。不管主动还是被动,所有人都会不得不加入这场竞赛。

他提到自己此前在 Meta 写过一份名为 OmniAgent 的提案,预测未来人与人之间的沟通将由 Agent 代为完成。当时他认为这件事大概五年内会发生,没想到进程远比预想中更快。


洪水马上来了:失业、教育与人类独有的意义

田渊栋用一个极其直白的比喻描述当下的就业形势:

“洪水马上来了,很多人没感觉到,因为很多人不是 AI 从业者。很多非 AI 从业者一直岁月静好,突然有一天像地震一样突然间发生大事情,然后发现自己被裁了。这个被裁不像以前——不是跟老板有矛盾或做得不好去另一家还能找工作。那个时候是你突然发现全行业逻辑变了,你这个技能在任何地方都没有用了。”

这不是周期性裁员,而是结构性淘汰。他强调自己只是"在洪水来之前给大家说一下”,至于能不能听进去,取决于每个人自己。

技术进步的速度甚至在碾压人类的想象力。他提到科幻写作的困境——过去一个点子可以撑五十年,现在如果不赶紧写下来,它就不再是科幻,而是已经发生的历史

“现在想象力已经落后于发展的速度了。以前写科幻小说觉得这个想法50年内都不能发生,现在倒过来——这个 idea 如果你再不写就没有了,因为已经发生了,就不会成为将来的科幻而会成为过去的历史。”

面对这样的未来,教育下一代该怎么做?田渊栋的回答很克制:再过二十年世界什么样,谁也说不准。他认为人最重要的是目的性和经验——很多事情跟人的内在目的绑定,机器无法替代。与其押注某个具体技能,不如让孩子去做他们真正想做的事。

这引出了他对人类独有意义的思考。以写小说为例:一部作品的缘起,是艺术家通过自身的内心经历产生了一个冲动,这个冲动转化为创作。他认为这部分是人类独有的——不是说 AI 在技术上做不到,而是"这部分被 AI 取代之后这个作品是没有意义的。意义在人。“换句话说,AI 可以生成文本,但无法赋予作品存在的理由。

话题转向 Agent 创业,田渊栋给出两条路径:要么速度快于大模型的发展速度,在窗口期积累客户和数据粘性,形成护城河;要么去攻克大模型本身解决不了的难题。除此之外,很难在基础模型厂商的碾压下存活。

至于他本人的下一步,田渊栋透露将加入一家 startup 担任联合创始人,正在进行 A 轮融资,已接近完成,“很多人愿意投”。具体方向和团队暂未公开。


编者分析

嘉宾立场

田渊栋以 Meta AI Research 前研究总监 的身份发言,目前正处于 创业融资阶段。这一双重身份值得读者留意:他对大公司的判断基于内部经验,具备一手信息优势;但作为离职创业者,他对行业格局的解读不可避免地带有 “为什么现在是创业好时机” 的叙事倾向。值得肯定的是,他在开源价值、Scaling Law 局限性等核心观点上保持了 2023 年以来的一贯立场,并非机会主义式表态。他对 Agent 安全风险的持续关注也显示出超越商业利益的技术责任感。

论证中的选择性

田渊栋的几个核心论证存在 选择性引用和简化类比 的问题。

第一,他用 “人才流动导致技术扩散,所以人才不是护城河” 来论证数据和 Infra 的独特价值。但这混淆了扩散与创造——人才离开后技术会扩散,恰恰说明 人才是产生技术秘密的源头,而非反例。强调数据和 Infra 为护城河,可能与他创业方向的融资叙事有关。

第二,“洪水论”(AI 将像洪水一样淹没一切)是 AI 创业融资中的经典策略——制造紧迫感有助于说服投资者。但这本质上是 技术决定论,忽略了企业采用周期、监管介入、组织惯性等减速因素。历史上几乎所有技术革命的实际渗透速度都远慢于技术本身的进步速度。

第三,他用 核威慑类比 论证开源的安全价值——“让所有人都有能力才能形成均衡”。但核武器是 毁灭性 的,AI 是 生产性 的,两者的博弈结构根本不同。更关键的是,开源代码并不等于使用能力的平等,算力和数据的门槛依然存在。

反面观点

田渊栋断言 Agent 将颠覆电商,让用户不再需要浏览和比价。但这忽略了消费行为中 “体验消费” 的维度——许多用户享受的是逛、比较、发现的过程本身,而非单纯追求效率最优解。

他关于 RL 上界被预训练锁死 的判断在当前范式下有合理性,但忽略了 组合创造 的可能性——多个弱能力通过 RL 组合后可能涌现出训练数据中不存在的新能力,Google Gemini 在数学领域的探索已初步显示这种潜力。

搜索时代的类比也存在 因果谬误——他暗示当年搜索公司面临的瓶颈类似今天的存储容量问题,但实际上搜索时代缺的不是存储,而是神经网络级别的语义理解能力,两个时代的技术瓶颈性质完全不同。

数据待查证

文中涉及几个关键数据点需要读者自行验证:Kimi K2 的"1T 参数” 在 MoE 架构下可能指总参数而非激活参数,两者差异可达数十倍;DeepSeek “60B 参数” 的说法可能有误,V3 架构为 671B 总参数 / 37B 激活参数;OpenAI 在 ChatGPT 中投放广告 的说法目前更接近传闻或早期探索,尚无官方确认;Google Gemini 的数学发现成果 需要查证具体论文和同行评审状态,以判断其是否构成对"RL 上界锁死"论点的实质反例。


核心要点

  • AI Lab 的护城河是数据和 Infra,算法和人才因流动性太强而无法构成壁垒——硅谷的秘密保质期只有两三个月
  • AGI 的关键不是无限扩大存储,而是实现记忆的升华和重组——从背诵到顿悟,正如四岁小孩突然学会数数
  • Agent 将通过裹挟效应改变社会——你不用,同行用了你就被淘汰——但其安全性问题远未解决

来源: 硅谷坐标 x 田渊栋: 解析大模型护城河、记忆存储瓶颈与Agent对社会冲击 | Silicon Valley Vector | 2026

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee