Builders Unscripted: Peter Steinberger 访谈全文转录 — OpenClaw 创始人

嘉宾:Peter Steinberger — OpenClaw 创始人,前 PSPDFKit 创始人 主持:Romain Huet — OpenAI 开发者体验负责人 节目:Builders Unscripted Ep. 1 时长:31 分钟 来源YouTube 观点提炼深度分析与编者观点


目录

  1. OpenClaw 登上华尔街日报 00:00:11
  2. 从 PSPDFKit 到 AI 觉醒 00:03:25
  3. OpenClaw 的诞生之路 00:07:58
  4. Discord 上线与安全挑战 00:13:05
  5. AI 生产力与 Agentic Trap 00:18:08
  6. 代码价值观的转变 00:22:34
  7. OpenClaw 的未来愿景 00:26:31
  8. 结语 00:31:08

1. OpenClaw 登上华尔街日报

时间: 00:00:11 - 00:03:24

Romain: Peter,欢迎来到 OpenAI。

Peter: 谢谢邀请。

Romain: 我们在网上认识已经好多年了,很高兴终于有机会和你面对面多聊聊。

Peter: 我也是。顺便说一句,办公室真的很漂亮。

Romain: 谢谢,谢谢。你最近这几周发生了太多事。一个月前我们最初想一起拍个视频,如果当时做了,我还得给你做个介绍。我想现在你已经不需要介绍了。一个开源项目能登上华尔街日报,这可不是常有的事,恭喜你取得这些成就。你现在感觉怎么样?

Peter: 各方面都有点感官超载,但话说回来,我今年开始折腾 AI 的时候,就想着能激励更多人——我觉得现在这种形式就很好,所以我很自豪。这段时间真的很精彩。

Romain: 你在旧金山待了一周,参加了不少活动,比如 Codex 黑客松,还有 Clawcon——那是一个专门为 OpenClaw 举办的活动,对吧?

Peter: 那个活动其实是社区自发组织的。我在一个 Discord 频道里提到了要举办聚会,因为大家都说"我们需要一次聚会",我说好啊。结果我到了 Clawcon 现场,发现来了将近一千个人,我完全震惊了——那种创造力、那些色彩,所有人都那么兴奋,有太多太多东西在发生。

Romain: 这就是你意识到自己造出了某种神奇之物的瞬间——这个项目几周前还不存在,现在已经有数千人拥抱它、使用它,从世界各地专程赶到旧金山来见你。这真的很不可思议。

Peter: 甚至下周在维也纳,已经有将近 300 人报名了。维也纳的科技圈远不如旧金山活跃,但现在这件事已经传遍全球了。

Romain: 这已经成为一种现象了。真了不起,竟然能跨越不同大陆、不同文化。那么,你和这里的社区交流得怎么样?你花时间和社区待在一起,还有一些你引入项目的维护者们——这周对你来说是什么感觉?

Peter: 感触颇深。很多人非常喜欢它,也有很多人对这个项目抱有很高的期望,觉得它应该是企业级的、成熟的最终产品——但对我来说,很长一段时间里,它只是我的小小游乐场。这整整一年,我都在为现在能做到的事情感到惊叹。如果你是一个构建者,这个时代真的是生而逢时。

Romain: 你觉得在这个时间节点做一个构建者,最有意思的地方是什么?

Peter: 整个工具链都在改变,“开发者"这个定义本身也在改变,任何人都可以构建任何东西。当我开始玩这些新技术的时候,每次都会有一种多巴胺爆发的感觉。那时候我用 Claude Code,它每次做对什么事情,成功率也许只有 30% 到 40%,但对我来说就像是字面意义上的震撼心灵,因为我意识到——现在我可以构建任何东西了。通常我们受限于时间,因为软件开发很难,现在依然很难,但你的速度快了太多太多。

Romain: 我完全同意。


2. 从 PSPDFKit 到 AI 觉醒

时间: 00:03:25 - 00:07:57

Romain: 如果我们往前倒几年的话——我最初了解到你的工作是在 2011 年或 2012 年左右,那时候你做了 PSPDFKit。从外部看,这段经历很有意思,因为感觉你实现了每个开发者的梦想:发现一个问题,为它创造了出色的解决方案,围绕它建立了公司,把公司做大,然后卖掉。但我相信那段旅程绝对没有听起来那么容易。

Peter: 我不是某天早上醒来就想着"我要做一个 PDF 框架"的——PDF 框架在我的兴趣列表里排名大概是倒数第一。所以它只是自然而然发生了。一种奇怪的蝴蝶效应:从参加诺基亚开发者活动,到朋友有需要,再加上美国签证迟迟办不下来,种种因素叠加在一起,最后促使我创立了一家公司。

Romain: 有意思的是,那家公司之后,你休息了一段时间。是什么让你最终重新回来了?

Peter: 我当时真的精疲力竭了。我高速运转了整整 13 年。经营一家公司很难,做创始人很难——而且这是我的第一家公司,我并不真正懂得如何缓解这些压力,所以我只是燃烧得过于猛烈,需要减压。那段时间我仍然在关注科技新闻,看到了 GPT Engineer 的早期版本——不管当时叫什么——还有 ChatGPT,我觉得挺有趣,但并没有真正让我兴奋起来。体验新技术只靠读文章是感受不到它的力量的,所以那时候并没有真的打动我。

直到我准备好了,感觉到"好,我想再做点什么"的时候,我也不想再做苹果生态里的东西了,因为我在那个领域耕耘了太长时间,而世界也发生了变化——你需要以 Web 优先的方式思考。我当时有过一种预感,但从一个领域的专家转向另一个领域真的很难——“难"这个词甚至都不够准确,更准确的说法是"痛苦”——因为你有那么多关于如何构建软件的宏观知识,但如果没有 AI 辅助工程,要把这些知识真正迁移过去,你还得学很多东西。

就在那时,我想:“来看看这个 AI 到底是什么东西。” 真正让我震撼的时刻,是我把一个做了一半的项目拿出来——那个项目是我筋疲力尽之前没做完的。

Romain: 对我们开发者来说,这种情况太常见了——我们喜欢有新想法、开新项目,但把项目做到终点才是最难的部分。

Peter: 确实很难。但这个项目我想继续做,同时又想重写。所以我把整个项目打包,生成了一个巨大的 Markdown 文件,大概有 1.5 MB,包含了所有代码文件。我把它拖进了 Gemini Studio 2.5,当时让它帮我写一份规格说明。然后我有了大概 400 行的规格文档,再把它拖进 Claude Code,输入"build”,然后去做主屏幕上的其他事情。它就这样在侧屏跑了好几个小时,那时候一切都还粗糙得多。

有一刻它告诉我"我已经 100% 准备好投入生产了"——就是那种谄媚的 Opus 3.5 或者什么版本。我去试了,结果崩溃了。然后我接入了 Playwright——这是我真正会用的为数不多的几个 MCP 之一——让它构建登录功能,并在过程中自行检验。那是一个 Twitter 相关的项目,大概一个小时后,它真的跑起来了,也给我展示了一些东西。成品很粗糙,但对我来说那是真正"开窍"的瞬间——就流程本身而言,我感到一阵鸡皮疙瘩,因为这里面蕴含的可能性太大了。从那一刻起,我就再也睡不好觉了,因为我的脑子里开始爆炸式地涌现出所有那些我一直想做却从未能做到的事情,然后我就彻底掉进兔子洞了。


3. OpenClaw 的诞生之路

时间: 00:07:58 - 00:13:04

Romain: 很多人觉得 OpenClaw 是你的一夜成名。但我真正喜欢、也觉得迷人的,是你故事里那种积累感——它其实是你过去九个月、十个月里做过的无数项目汇聚到一起的结果。看你的 GitHub 主页,上面有四十多个项目。

Peter: 其中一半我自己都在 OpenClaw 里用到了。

Romain: 对,很多都被你整合进了 OpenClaw。能多说说这段旅程吗?这些想法和项目是怎么一步步汇入 OpenClaw 的?

Peter: 我希望我能说一开始就有一个统一的规划,但大部分都只是探索。我想要某些东西,那些东西不存在,我就去"召唤"它们出来——或者说,我把它们通过提示词给带到了现实里。为什么?就是:好,来做这个吧。然后一步一步往前走。因为我想让我的 AI 助手帮我做一些事情,但那时我还没有一个统一的愿景。

有个很有趣的轮回——我最初想做一个能查看我 WhatsApp 的东西,做了一个原型,但那时没有买到域名,而且我觉得大型实验室迟早会做这件事,所以就搁置了,去研究别的。我就这样大量地实验,我的使命就是玩得开心、激励更多人。到十一月份,我做了几个版本,但都不够好。然后我想:为什么各家实验室到现在还没做这个东西?他们在干什么?于是我做出了第一个版本——也就是后来成为 OpenClaw 的那个,我们现在已经到第五个名字了。那时候对我来说还是没完全点击到位,就是"这很酷"的感觉,做出第一个原型大概只花了一个小时,因为现在就是这样,你把东西召唤出来就行了。

真正让我彻底点击到位的,是有一次我去马拉喀什度周末,发现自己用它的频率越来越高,因为太方便了——那里没什么好网络,WhatsApp 到处都能用,所以真的很顺手。我用它拍照翻译路牌,找餐厅,还用它从电脑上查东西。我把它展示给朋友看,还让它帮我发短信,结果他们都想要。我就说:“你们不能用,这太危险了,还没到那一步。”

Romain: 那时候你看到的其实就是产品市场契合的早期信号了——朋友们想要你有的东西,尽管它并不是为他们设计的。

Peter: 然后真正让我顿悟的,是我在大量使用它的过程中,有一次发了一条语音消息,然后我想:等等,这不应该能工作的啊。

Romain: 跟我说说这个故事,真的很精彩。

Peter: 这件事让我看到了这些模型有多强大的问题解决能力。我们把这些东西构建成 agentic 工程工具,但那种能力其实是更抽象的——如果你想成为一个真正优秀的程序员,你需要是一个真正优秀的问题解决者,而这种能力可以映射到任何领域。

我发出了那条语音消息,打字指示符出现了,我很好奇:现在会发生什么?这个功能我根本没做过,不可能工作的。然后模型回复了我,我就问它:你怎么做到的?模型说:你发给我的是一个文件,但没有文件后缀,所以我看了文件头,发现它是 Opus 这个音频编解码格式。于是我用电脑上的 FFMPEG 把它转换了,然后想转录它,但没有安装 Whisper,于是我找了一下,发现了一个 OpenAI API 密钥,就用 curl 把文件发到 OpenAI,拿到了文字,就是这样。

Romain: 太不可思议了。这就是给这些 AI 工具和完整计算机访问权限的力量——它们现在真的可以自己想出解决方案,即使你从来没有专门为这种情况编过程序。

Peter: 真的很好笑,我跟别人说这个故事,他们就说:“天哪,它用了你的 API 密钥!这太疯狂了!“我说:不,我把它放在环境变量里,就是为了这个用途的。我的 bot 就运行在同一个环境里,当然它应该能访问我的 OpenAI 密钥——我就是为这个目的把它放在那里的。这根本不是坏事,这正是我想要的。

然后每次我把它展示给朋友,我就把他们加进一个小群聊。坦白说,这个东西是为一对一通信设计的,所以如果你要把它放进群聊,请选一个你真正信任的人——因为它不是那种"放出去让它自己做所有正确判断"的东西,它是你的私人助理。


4. Discord 上线与安全挑战

时间: 00:13:05 - 00:18:08

Romain: 当我自己搭它的时候,我也很着迷。你给它的访问权限越多、工具和技能越多,它就越能让你叹为观止。你给了它一个通用技能,然后让它去构建一个活动网站——它不仅在构建应用,还用你的 OpenAI 密钥往里面加 AI 功能,还把它部署到 Vercel,然后就有了一个可以分享给朋友的链接。这和"用 AI 辅助写代码"完全是两个层级的变化。

Peter: 整个十一月和十二月,我完全沉迷其中。但在 Twitter 上,没人理解,反应很平淡,可是每次展示给朋友看,他们都想要。于是我想:我能做的最疯狂的事情是什么,才能让大家明白这有多酷?所以我建了一个 Discord,直接把我的 bot 丢进去,完全没有任何安全措施——那时候我甚至还没做沙盒,一切都很早期,我只是在公开透明地干活。我基本上是用 OpenClaw 来构建 OpenClaw 本身,然后调试它,再问模型问题,然后大家看到了这些,他们才真的明白了。

Romain: 你把它放进 Discord 的时候,给了它什么样的访问权限?

Peter: 不是所有推文——太多了——但有很多我的记忆内容。我其实监控得很紧,因为提示词注入这个问题目前还没有解决方案,但最新一代的模型真的很厉害。我有一个"金丝雀”——就是我的 SOUL.md——里面定义了我的价值观,我希望模型如何运作、如何思考、什么对我重要,这是保密的。很多人都想拿到这个文件,陌生人跑进来尝试提示词注入,粘贴大段大段的代码,模型的回答是:“我不会读这个。“基本上在嘲弄他们。

不过我仍然没有什么把握。第一晚上引发了大量关注,然后我把它关掉,上床睡了大概十个小时。醒来发现 Discord 上有 800 条消息,我的 bot 一条一条全都回复了。我当时吓坏了,又把它关掉,然后把每一条都仔细看了一遍。看到后来我才慢慢冷静下来,因为它实际上没有做任何恶意的事,没有泄露我的 SOUL.md。

Romain: 从大局来看,它其实是按照你期望的方式在运行的。

Peter: 对。我最大的失误是我关掉了它,但忘了我其实还有一个 launch daemon。launch daemon 最核心的功能是什么?如果程序崩溃或被杀死,它就重启。我就是没想到这件事。所以我杀掉进程,五秒钟之内它又重启了,然后我就去睡觉了。

现在我也做了沙盒。不过那些模型真的太有创造力了。第一次我搭了一个 Alpine Linux 的 Docker 容器,里面什么都没有,然后告诉模型"你能去查一下这个网站吗?“它说:“里面连 curl 都没有,什么都没有。“我说:“发挥创意。“于是它用自己的工具构建了一个"Lobster Curl”——它发现容器里有 C 编译器,就用 TCP socket 自己写了一个简陋的 curl,然后居然真的能访问网站了。

Romain: 太疯狂了。你也遇到了一些挑战——有人从第一天起就期待你有完美的安全防护,但你当时只是在分享一个开源项目。

Peter: 我很喜欢有时候有人问我:“能让我跟你的 CEO 或团队其他成员谈谈吗?“我就说:基本上就是我一个人在我的洞里敲代码。这里有一种真正的认知错位——这件事用人力是不可能做到的。就算放在一年前,也没有一个人能做到这件事。没有任何先例说明这样的东西可以由一个人构建出来。


5. AI 生产力与 Agentic Trap

时间: 00:18:08 - 00:22:34

Romain: 我们来聊聊你的生产力吧,因为我相信很多开发者都很好奇——Peter 是怎么做到如此高产的?今天早上我又去看了你的 GitHub,发现你去年一年在 120 多个项目上有将近 9 万条贡献。更有意思的是,去年年初 GitHub 活动图上还是一片白色和浅绿,到了秋天,大概十月、十一月,颜色突然变得非常深。

Peter: 我觉得是 Codex——每一代模型都在进步。但不只是 Agent 变好了,整个工具的便捷性也提升了。还有就是我自己对如何使用这些工具的理解和工作流程也在不断优化。有些人还在用老方式写代码,但老方式终究会消亡。他们会去尝试 AI,却把它叫做"氛围编程”——我觉得"氛围编程"这个词本身就是一种贬低。他们尝试了 AI,却没有意识到这是一项需要学习的技能。就像拿起吉他,第一天肯定弹不好,所以体验很差,然后就说"不行,这东西没用”。但如果你以更好玩的心态去接触它,愿意去学,去摸索……我现在对一个提示会花多长时间、能不能奏效已经有了一种直觉。如果感觉花的时间太长了,我会反思:也许是我哪里出了问题,也许是架构不对,也许是思路有问题。

Romain: 对于想变得像你一样高产的人来说,你现在的 Codex 使用方式是什么?你好像说过,大多数人把自己的设置搞得太复杂了。

Peter: 是的,我也曾经把自己的设置搞得很复杂过。我把它叫做"Agentic Trap”。从你第一次接触这项新技术,到真正用得得心应手,很多人会卡在中间——一直在超优化自己的工具配置。这并不会真的让你更高效,但感觉上好像变得更高效了。我发过一篇博客说:就直接和模型说话就好了。把它当成一场对话。我基本上就是告诉它我想要什么,然后我总会问模型:你有什么问题吗?不知道为什么,模型总是有问题要问的。默认情况下,模型被训练成直接解决你的问题,然后自行做出假设。但默认的假设不一定是最好的。“你有什么问题吗?"——这是一个非常重要的提问习惯。

模型通常是从空白状态开始的。每一个新的 session,对它来说就像是"我对这个代码库一无所知”。它们通常看不到全局。如果你想用好这套工具,你必须自己把全局图景装在脑子里,然后帮模型一把,引导它"这里看一眼,那里看一眼”。Codex 在先做全局浏览这方面做得更好。我用的方法非常基础,我甚至不用 worktree,就是简单地 checkout 1 到 10。保持简单让我能更专注于真正的问题。

Romain: 你大量使用 Codex 来构建 OpenClaw。Codex 怎样改变了你的工作方式?

Peter: 我试过很多工具,我喜欢 Codex 的地方在于,在所有工具里,我对它"能按我的意图构建东西"的信任度是最高的。而且我觉得大家没有意识到的是,GPT-5.2 又是一次量子跃迁级别的提升——真的就是"这东西直接就能用”。我到现在还是对它能做到多好感到惊叹。

Romain: 太棒了,我们就是可以直接把东西构建出来。


6. 代码价值观的转变

时间: 00:22:34 - 00:26:31

Romain: 你还说过一句很有名的话——你现在发布的代码,自己都没有通读过。

Peter: 大多数代码都很无聊。大多数代码只是把一种数据形态转换成另一种,最终要么用户看到它,要么传到别的地方去。所以对于大多数代码,我心里的那个"它在构建什么"的心智模型,和它实际构建出来的东西大致吻合——这就够了。我以前带过团队,手下有很多软件工程师。带团队同样需要接受一件事:他们不会写出和我完全一样的代码。归根到底,你应该让代码库朝着 Agent 能做出最佳工作的方向优化——这和人类能做出最佳工作的方向并不总是一样的。

Romain: 你关于代码价值的观点,也正在深刻改变你对待开源的方式。OpenClaw 现在有 2000 个 PR 待处理。你现在好像把它们称为"Prompt Request"而非"Pull Request”,因为 PR 背后的想法和意图比代码本身更重要。

Peter: PR 有时候反而比我自己来做花的时间更长。因为我对模型"不会有恶意"的信任程度,要远高于一个我从未听说过的外部贡献者。当我看到一个 PR,开始 review 的时候,我问模型的第一个问题是:你理解这个 PR 的意图吗?因为我根本不在乎代码本身,我在乎的是这个人实际上想解决什么问题。

但首先,很多人还不太会驾驭自己的 Agent。然后通常给出的解决方案也非常局部,因为他们脑子里没有整个系统的全局图景。难的地方在于:这个小小的新功能,如何融入我更大的整体系统?这个小小的修复——好,它修了一个小问题,但这个修法是对的吗?很多时候更可能是一个系统性的或架构层面的问题。

所以模型其实非常擅长这个。我先问模型:意图是什么?这是最优解吗?它有时候说是,但更多时候会说不是。然后我们就开始探讨最好的修法。这类讨论有时候会持续十到十五分钟。我用语音,因为这真的就像在和一个非常聪明的同事说话。等我满意了,我就有一个 slash 命令叫 land PR,它会创建分支、做所有改动、把 PR 合并进去。我想建立一个社区,所以我还是会尽力把贡献归功于提出它的人,哪怕整个过程比我自己来做还要花更多时间。


7. OpenClaw 的未来愿景

时间: 00:26:31 - 00:31:08

Romain: 你对 OpenClaw 的未来愿景是什么?你是否把自己视为某种先行者——在定义"个人 AI Agent 应该长什么样"这件事上?

Peter: 我想找到一种平衡——一方面是"我妈妈也能安装”,另一方面是"好玩、可以随意折腾”,这两者很难同时实现。大多数开源项目就是下个包就完事了。但很长一段时间里,我默认的安装方式是 git clone、build、run。这样你磁盘上就有了源码,Agent 就运行在源码里,并且能感知到这份源码。如果你不喜欢任何东西,你直接提示 Agent,它就会修改自己——这就是真正的自我修改软件。

与此同时,整个安全行业都把眼睛盯在上面,这既有趣,也有点令人沮丧,因为有些微妙之处被忽略了。比如我有一个 web 服务器,本意是只在你自己的可信网络内访问。但因为它也应该是"黑客的乐园”,我留了一个选项可以改变这个行为。但现在却有人把它直接暴露在公网上,即使我在安全文档里大声喊"请不要这么做"。然后安全研究员指出它没有登录限制——是的,我当初构建它的时候就不是为了那个场景。现在我引进了一位安全专家,这是当前的主要工作重心。我意识到我无法阻止人们用它没打算支持的方式去使用它,所以现在的重点是帮助大家不要搬起石头砸自己的脚。

Romain: 这就是开源的美妙之处。稍微拉远一点——大家都在问,Peter 怎么能想出那么多好点子?

Peter: 更多的是这样一种感悟:做东西变容易了。就算我找到一个开源项目能解决我问题的 70%,我也会自己构建一个,而这在一年前根本是不可能的。

Romain: 我们都来自欧洲。很多开发者和工程师还没有真正拥抱 Codex 和 Agentic 工具。你对他们有什么建议?

Peter: 我的第一个建议始终是:以玩的心态去接触它。构建一个你一直想构建的东西。如果你多少有一点"builder"的气质,你脑子里肯定有某件一直想做的事。就去玩吧。Jensen Huang 说过——在不远的将来,取代你的不是 AI,而是一个比你更擅长使用 AI 的人。但如果你的身份认同是"我想创造东西,我想解决问题",如果你是一个高代理感的人,如果你聪明,那你将比以往任何时候都更受欢迎。

Romain: 对于那些拥抱这些工具的 builder 来说,现在真的是一个绝佳的时代。我觉得再过一年,这一切会爆发式增长。

Peter: 是的,2026 年会很精彩。


8. 结语

时间: 00:31:08 - 00:31:23

Romain: 非常非常感谢你,Peter,感谢你抽出时间。OpenAI 的所有人都热爱你的工作,我们热爱支持像你这样的 builder。说真的,你是整个开发者社区真正的榜样和灵感来源。再次感谢,我们迫不及待想看到你接下来会做什么。

Peter: 谢谢你们邀请我,和你在一起很愉快。


基于 AssemblyAI 转录,经 Claude 翻译优化

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee