为万亿 Agent 而构建 | Yuanchang's Blog

过去几个月，Agent 领域发生了一件大事。去年年底，我们开始触及一个临界点——编码 Agent 能够完成运行时间更长的任务，在整个开发过程中不再需要那么多手把手的指导。

这些 Agent 不再是配了几个基础工具的聊天机器人。相反，它们通常拥有自己的沙箱计算环境，能够为遇到的任何问题编写和运行代码，直接与 API 和 CLI 交互，拥有自己的文件系统和长期记忆，等等。这套核心原语、Agent 框架最佳实践的普遍进步，以及模型在 Agent 工具调用和软件开发方面的疯狂进步，让我们看到了能够处理任何抛给它们的任务的 Agent 的雏形。

虽然这种架构最初是由 Claude Code、Devin、Codex、Factory、Cursor 或 Replit 等编码 Agent 定义的，但我们最近已经跨越鸿沟，进入了个人体验和知识工作的所有领域——现在有了 Claude Cowork、Perplexity Computer、Manus，当然还有 OpenClaw，它把事情推向了更远的未来，用一个在自己持久环境中 24/7 运行的 Agent。

由于能力的快速进步，Agent 将被引入几乎所有工作领域。Agent 将被部署来审查每份合同、处理大多数客户支持案例的第一线、审计每家公司的财务、梳理每一项用于药物发现的医学研究、生成几乎所有将要编写的代码、创建大多数销售和咨询演示文稿、在网上为消费者进行交易，总之，参与社会中几乎所有其他经济价值任务。

这不仅仅是执行我们今天已经在做的任务。我们将用 Agent 做比以前多得多的事情——我们将用 Agent 运行以前负担不起的模拟，用它们为每个想法制作多种不同选项的原型，我们将追求更多的项目因为启动成本低且容易关闭，我们将审查每一条数据而不是抽样。

把这些加在一起，我们可以预期一个组织中几乎每个员工都将有许多 Agent 代表他们工作，不难想象一个企业中 Agent 的数量是员工的 100 倍甚至 1000 倍。由于数万亿的 Agent 在运转，Agent 将成为未来所有软件的主要用户。

鉴于大多数软件是为人类使用而构建的，这意味着我们将看到未来软件面貌的重大转变。那么，下一步是什么？

做 Agent 想要的东西

Paul Graham 曾用最简单的话概括了如何构建软件：做人们想要的东西（Make something people want）。

这条建议催生了 21 世纪一些最大的软件成功故事，并推动了一场运动——构建简单易用、容易采纳、无行话地解决明确问题、定价直接的工具。

现在，前进的道路是做 Agent 想要的软件。虽然 Agent 的最大用户群体往往是开发者或至少是高度技术化的用户，他们通常会有自己的工具偏好，但在一个 Agent 为知识工作者执行任何类型任务的世界里，这种偏好将慢慢消退。除非企业已经有了标准，否则 Agent 将在任何特定工作流程中掌握采纳什么工具的主导权。

这可能意味着它们注册的工具、编写的代码、使用的库、利用的技能等等。对 Agent 来说更容易采纳、更好地解决 Agent（和用户）问题的平台，将比那些做不到的平台快得多地领先。Agent 不会去参加你的网络研讨会或看你的广告；它们只会使用最好的工具来完成工作，而你会希望那个工具是你的。

这条建议最大的含义是，你构建的一切都必须变成 API 优先。如果你的某个功能没有 API，它就等于不存在。如果它不能通过 CLI 或 MCP 服务器暴露，你就处于劣势。如果你有令人困惑的 API 和相互冲突的路径让 Agent 去追寻，你只是在损害自己对 Agent 有用的机会。在 Box，我们专注于为 Agent 构建文件系统，一直在梳理我们 API 的每个方面，弄清楚在 Agent 世界中什么会出问题，这种可用性的关注度通常只投入到 UX 设计中。

就像为用户设计意味着在构建软件时设身处地为他们着想一样，在思考 Agent 将遇到什么时也是如此。例如，YCombinator 的 Jared Friedman 提醒了所有人：即使是最好的开发者工具，大多仍然不允许你通过 API 注册账户。这在 Claude Code 时代是一个重大失误，因为这意味着 Claude 无法自己注册。将所有账户管理功能放入 API 中现在应该是基本要求。如果 Agent 不能轻松地注册你的服务并开始使用，你对 Agent 来说基本上就是死的。

Agent 成为软件最大用户的世界也有重大的商业模式影响。在某些情况下，用户席位启动 Agent 可能很舒适地适合基于席位的软件商业模式，但有大量的 Agent 用例不能整齐地附着在现有用户上，或者因为它们的工作量体量完全不同。例如，只需几个字或几行文本，一个 Agent 就可能在软件中完成相当于人类数小时的工作，只将最终输出暴露给终端用户。

这最终意味着软件某些部分的商业模式需要演变，因为任何想要在 Agent 化未来中生存的工具，都需要在系统中内置某种形式的消费或基于用量的商业模式，甚至支持 Agent 能够自己为这些服务付款。

Agent 基础设施和工具的新时代

“给人类配电脑是个好主意。给电脑配电脑，让它们能为我们的工作创造与我们在电脑上相同的产出，这是一个更好的主意。” —— Aravind Srinivas，Perplexity

当 Agent 拥有自己使用的计算机，能够编写和执行自己的代码，调用常用技能执行重复操作，以及接入外部工具和服务，这就为一套全新的 Agent 专用技术创造了机会。只要想象一下用户在电脑上做什么，Agent 就需要一套为它们专门设计的类似能力。

其中一些核心服务自然会来自现有玩家，因为 Agent 正在接入现有数据，或者现有人类用户与系统上的 Agent 用户之间的协作或连接存在价值。同样，会有全新的类别出现，因为问题空间与人类用户以前需要或能做的事情如此不同，从头开始设计服务是有意义的。

例如，Agent 显然需要自己的基础设施来运行，而且规模是我们从未见过的。下一个超大规模云服务商（或现有的一个）将建立在这样一个理念之上——未来的服务器集群不是用于我们的应用程序，而是用于我们的 Agent。E2B、Daytona、Modal 和 Cloudflare 都在朝这个方向推进，这些沙箱环境将与我们以前见过的任何规模的计算匹敌。

Agent 还需要访问企业中的核心文件，并能够管理自己的数据用于记忆和长期运行的工作，这正是我们在 Box 专注构建的。类似地，主要的企业系统需要变成 API 优先，以使 Agent 能够处理来自组织的关键服务和数据——如 HRIS、CRM、工作流、数据湖和其他主要系统。为 Agent 提供最无缝工具以在任何地方操作这些数据的产品，将在赢得这些未来工作负载方面处于最佳位置。

Agent 可能还需要身份，并有能力与他人通信；例如，Agentmail 正在为 Agent 提供邮箱，让它们拥有自己的持久电子邮件。Parallel、Exa 等正在为一个 Agent 是最大网络爬取信息用户的世界重建网络搜索。许多类型的 Agent 需要管理自己的预算，通过 Stripe 或 Coinbase 的钱包决定可以花多少钱，我们可能终于找到了微交易的真正用例——Agent 可以接入付费工具和信息。

安全、合规和治理将成为这些 Agent 的重大问题。在 Agent 访问和处理工作流中敏感信息的世界中，或者在它们执行受监管工作流（如制药或银行业）的地方，公司需要治理和保留这些 Agent 所做的所有工作。长期运行的 Agent 可能需要自己的身份，允许它们对服务进行身份验证，对它们可以采取的操作类型和在企业中可以访问的数据提供严格控制。我们需要全新的软件和平台来帮助应对这些挑战，就像我们为人和应用程序长期建设的那样。

总的来说，我们显然正在进入软件的新时代，需要专门为 Agent 大规模使用来设计和构建我们的工具。在一个万亿 Agent 工作的世界中，这将开创一种全新的软件使用方式。

作者：Aaron Levie — Box CEO 原文链接：x.com/levie/status/2030714592238956960

☕ 如果这篇文章对你有帮助，欢迎请我喝杯咖啡，支持我继续创作更多内容。

Buy me a coffee