【转载】OpenClaw + Codex/ClaudeCode Agent Swarm: 一个人的开发团队(完整设置指南)
💡 Elvis 这篇 X Article 在 24 小时内获得了 230 万次浏览和 2 万+ 收藏,完整记录了他如何用 OpenClaw 编排 AI Agent 集群来构建 SaaS 产品。以下是原文翻译。

OpenClaw + Codex/ClaudeCode Agent Swarm: 一个人的开发团队(完整设置指南)
我已经不再直接使用 Codex 或 Claude Code 了。
我用 OpenClaw 作为编排层。我的编排器 Zoe 负责生成 Agent、编写 prompt、为每个任务选择合适的模型、监控进度,并在 PR 准备好合并时通过 Telegram 通知我。
过去 4 周的成果:
- 一天 94 次 commit。我最高产的一天——当天有 3 个客户电话,但一次都没打开编辑器。日均大约 50 次 commit。
- 30 分钟内 7 个 PR。从想法到生产的速度极快,因为编码和验证基本都是自动化的。
- Commit → MRR:我用这套系统构建一个真实的 B2B SaaS——结合创始人主导的销售,大多数功能需求当天就能交付。速度将潜在客户转化为付费客户。

我的 git 历史看起来像是刚招了一个开发团队。实际上只是我从「管理 Claude Code」变成了「管理一个编排 Claude Code 和 Codex 集群的 OpenClaw Agent」。
成功率:系统对几乎所有中小型任务都能一次完成,无需人工干预。
成本:Claude 大约 $100/月,Codex $90/月,但你可以从 $20 开始。
这套系统为什么比直接使用 Codex 或 Claude Code 更好:
Codex 和 Claude Code 对你的业务了解非常有限。
它们看到的是代码,看不到你业务的全貌。
OpenClaw 改变了这个等式。它充当你和所有 Agent 之间的编排层——它持有我所有的业务上下文(客户数据、会议笔记、过往决策、什么有效、什么失败了),这些都在我的 Obsidian vault 中,并将历史上下文转化为每个编码 Agent 的精确 prompt。Agent 专注于代码,编排器则保持在高层战略水平。
系统工作原理概览:

上周 Stripe 发表了关于他们的后台 Agent 系统 “Minions” 的文章——并行编码 Agent 加上集中式编排层。我无意中构建了相同的东西,但它运行在我的 Mac mini 上。
在我告诉你如何设置之前,你应该先了解为什么需要一个 Agent 编排器。
为什么一个 AI 做不了两件事
上下文窗口是零和博弈。你必须选择放什么进去。
填满代码 → 没有空间放业务上下文。填满客户历史 → 没有空间放代码库。这就是两层系统有效的原因:每个 AI 只加载它需要的内容。
OpenClaw 和 Codex 有截然不同的上下文:

通过上下文实现专业化,而不是通过不同的模型。
完整的 8 步工作流
让我带你看一个上周的真实案例。
Step 1: 客户需求 → 与 Zoe 确定范围
我和一个代理商客户通了电话。他们想复用已经设置好的配置。
通话后,我和 Zoe 讨论了需求。因为我所有的会议笔记会自动同步到 Obsidian vault,我这边完全不需要解释。我们一起确定了功能范围——最终落在一个模板系统上,让他们可以保存和编辑现有配置。
然后 Zoe 做了三件事:
- 充值额度以立即解除客户限制——她有管理员 API 权限
- 从生产数据库拉取客户配置——她有只读生产数据库权限(我的 Codex Agent 永远不会有这个),检索客户现有设置并包含在 prompt 中
- 生成一个 Codex Agent——附带包含所有上下文的详细 prompt
Step 2: 生成 Agent
每个 Agent 都有自己的 worktree(隔离分支)和 tmux 会话:
# Create worktree + spawn agent
git worktree add ../feat-custom-templates -b feat/custom-templates origin/main
cd ../feat-custom-templates && pnpm install
tmux new-session -d -s "codex-templates" \
-c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \
"$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"
Agent 在 tmux 会话中运行,通过脚本记录完整终端日志。
启动 Agent 的方式:
# Codex
codex --model gpt-5.3-codex \
-c "model_reasoning_effort=high" \
--dangerously-bypass-approvals-and-sandbox \
"Your prompt here"
# Claude Code
claude --model claude-opus-4.5 \
--dangerously-skip-permissions \
-p "Your prompt here"
我以前用 codex exec 或 claude -p,但最近切换到了 tmux:
tmux 更好是因为任务中重定向非常强大。Agent 方向走偏了?不要杀掉它:
# Wrong approach:
tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter
# Needs more context:
tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter
任务在 .clawdbot/active-tasks.json 中追踪:
{
"id": "feat-custom-templates",
"tmuxSession": "codex-templates",
"agent": "codex",
"description": "Custom email templates for agency customer",
"repo": "medialyst",
"worktree": "feat-custom-templates",
"branch": "feat/custom-templates",
"startedAt": 1740268800000,
"status": "running",
"notifyOnComplete": true
}
完成后更新为 PR 编号和检查状态:
{
"status": "done",
"pr": 341,
"completedAt": 1740275400000,
"checks": {
"prCreated": true,
"ciPassed": true,
"claudeReviewPassed": true,
"geminiReviewPassed": true
},
"note": "All checks passed. Ready to merge."
}
Step 3: 循环监控
一个 cron job 每 10 分钟运行一次来监护所有 Agent。这基本上是改进版的 Ralph Loop,后面会详细说。
但它不直接轮询 Agent——那太贵了。相反,它运行一个脚本读取 JSON 注册表并检查:
.clawdbot/check-agents.sh
这个脚本是 100% 确定性的,极其节省 token:
- 检查 tmux 会话是否存活
- 检查跟踪分支上是否有打开的 PR
- 通过 gh cli 检查 CI 状态
- 如果 CI 失败或有关键审查反馈,自动重新生成失败的 Agent(最多 3 次)
- 只在需要人工关注时发出警报
我不看终端。系统告诉我什么时候该看。
Step 4: Agent 创建 PR
Agent 提交、推送,并通过 gh pr create --fill 打开 PR。此时我不会收到通知——仅有 PR 并不算完成。
完成的定义(让你的 Agent 知道这一点非常重要):
- PR 已创建
- 分支与 main 同步(无合并冲突)
- CI 通过(lint, types, 单元测试, E2E)
- Codex 审查通过
- Claude Code 审查通过
- Gemini 审查通过
- 包含截图(如果有 UI 变更)
Step 5: 自动化代码审查
每个 PR 都经过三个 AI 模型审查。它们捕获不同的问题:
- Codex Reviewer — 在边界情况方面表现出色。做最彻底的审查。捕获逻辑错误、缺失的错误处理、竞态条件。误报率非常低。
- Gemini Code Assist Reviewer — 免费且极其有用。捕获其他 Agent 遗漏的安全问题和可扩展性问题,并建议具体修复。安装它毫无疑问。
- Claude Code Reviewer — 大多数情况下没什么用——倾向于过度谨慎。大量 “consider adding…” 的建议通常是过度工程化。除非标记为关键问题否则我都跳过。它很少自己发现关键问题,但能验证其他审查者标记的内容。
三个模型都直接在 PR 上发表评论。
Step 6: 自动化测试
我们的 CI 流水线运行大量自动化测试:
- Lint 和 TypeScript 检查
- 单元测试
- E2E 测试
- 针对预览环境(与生产环境相同)的 Playwright 测试
上周我加了一条新规则:如果 PR 修改了任何 UI,必须在 PR 描述中包含截图,否则 CI 失败。这大幅缩短了审查时间——我可以直接看到什么变了,不用点击预览。
Step 7: 人工审查
现在我收到 Telegram 通知:“PR #341 ready for review。”
到这个时候:
- CI 通过
- 三个 AI 审查者批准了代码
- 截图展示了 UI 变化
- 所有边界情况都在审查评论中记录
我的审查只需 5-10 分钟。很多 PR 我不读代码就直接合并——截图告诉了我需要知道的一切。
Step 8: 合并
PR 合并。每日 cron job 清理孤立的 worktree 和任务注册表 JSON。
Ralph Loop V2
这本质上是 Ralph Loop,但更好。
Ralph Loop 从记忆中拉取上下文,生成输出,评估结果,保存学习成果。但大多数实现每个循环运行相同的 prompt。蒸馏出的学习成果改善了未来的检索,但 prompt 本身保持不变。
我们的系统不同。当 Agent 失败时,Zoe 不是简单地用相同的 prompt 重新生成它。她带着完整的业务上下文审视失败,并找出如何解除阻塞:
- Agent 上下文用完了?“只关注这三个文件。”
- Agent 方向走偏了?“停下。客户要的是 X 不是 Y。这是他们在会议上说的。”
- Agent 需要澄清?“这是客户的邮件和他们公司的情况。”
Zoe 全程监护 Agent 直到完成。她拥有 Agent 没有的上下文——客户历史、会议笔记、我们之前尝试过什么、为什么失败。她用这些上下文在每次重试时写出更好的 prompt。
但她也不等我分配任务。她主动寻找工作:
- 早上:扫描 Sentry → 发现 4 个新错误 → 生成 4 个 Agent 调查和修复
- 会议后:扫描会议笔记 → 标记客户提到的 3 个功能请求 → 生成 3 个 Codex Agent
- 晚上:扫描 git log → 生成 Claude Code 更新 changelog 和客户文档
我在客户电话后出去散步。回来看 Telegram:“7 个 PR 准备审查。3 个功能,4 个 bug 修复。”
当 Agent 成功时,模式会被记录下来。“这种 prompt 结构适合计费功能。““Codex 需要预先提供类型定义。““总是包含测试文件路径。”
奖励信号是:CI 通过、三个代码审查通过、人工合并。任何失败都会触发循环。随着时间推移,Zoe 写出更好的 prompt,因为她记住了什么成功发布了。
选择合适的 Agent
并非所有编码 Agent 都是平等的。快速参考:
Codex 是我的主力。后端逻辑、复杂 bug、跨文件重构,任何需要在代码库中进行推理的任务。它更慢但更彻底。我 90% 的任务都用它。
Claude Code 更快,前端工作更出色。它的权限问题也更少,所以非常适合 git 操作。(我以前更多用它来驱动日常工作,但 Codex 5.3 现在确实更好更快)
Gemini 有不同的超能力——设计感。对于漂亮的 UI,我会让 Gemini 先生成 HTML/CSS 规范,然后交给 Claude Code 在我们的组件系统中实现。Gemini 设计,Claude 构建。
Zoe 为每个任务选择合适的 Agent 并在它们之间路由输出。计费系统 bug 交给 Codex。按钮样式修复交给 Claude Code。新的 dashboard 设计从 Gemini 开始。
如何搭建
把这整篇文章复制到 OpenClaw 里,告诉它:“为我的代码库实现这个 Agent 集群设置。”
它会读取架构、创建脚本、设置目录结构、配置 cron 监控。10 分钟搞定。
没有课程要卖给你。
没人预料到的瓶颈
我现在遇到的天花板是:RAM。
每个 Agent 需要自己的 worktree。每个 worktree 需要自己的 node_modules。每个 Agent 运行构建、类型检查、测试。五个 Agent 同时运行意味着五个并行的 TypeScript 编译器、五个测试运行器、五套依赖加载到内存。
我的 Mac Mini 16GB 在 4-5 个 Agent 时就开始 swap 了——而且还得运气好它们不同时构建。
所以我买了一台 128GB RAM 的 Mac Studio M4 Max($3,500)来驱动这套系统。3 月底到货,届时会分享是否值得。
下一步:一个人的百万美元公司
2026 年我们将看到大量一人百万美元公司出现。对于理解如何构建递归自我改进 Agent 的人来说,杠杆效应是巨大的。
这就是它的样子:一个 AI 编排器作为你自身的延伸(就像 Zoe 之于我),将工作委派给专注不同业务功能的专业 Agent。工程。客户支持。运营。营销。每个 Agent 专注于它擅长的事情。你保持激光般的专注和完全的控制。
下一代创业者不会雇佣 10 人团队来做一个拥有正确系统的人就能做的事。他们会这样构建——保持小团队,快速行动,每天发布。
现在有太多 AI 生成的垃圾内容。围绕 Agent 和"任务控制台"的炒作太多了,却没有构建任何真正有用的东西。华丽的演示没有真实世界的收益。
我在尝试做相反的事:少一些炒作,多一些构建真实业务的记录。真实的客户,真实的收入,真实的提交到生产的 commit,也有真实的损失。
我在构建什么?Agentic PR——一个一人公司挑战企业级 PR 巨头。帮助初创公司获得媒体报道的 Agent,不需要每月 $10k 的顾问费。
如果你想看我能走多远,跟着看吧。
原文作者:Elvis (@elvissun) | 原文链接:X Article | 原文发布于 2026-02-23
如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。
Buy me a coffee