xAI MacroHard:Elon Musk 的「人类模拟器」到底在做什么?

xAI MacroHard — 自动驾驶电脑

为什么要调查这个?

事情起因很简单:我在看 Elon Musk 最新的 Dwarkesh Patel 采访(2026年2月5日,近3小时)时,注意到一段耐人寻味的对话。

主持人反复追问 xAI 的取胜战略,Elon 显然不想在播客上透露太多,但他给出了一个极其明确的线索:

“I think I know the path to do this because it’s kind of the same path that Tesla used to create self-driving. Instead of driving a car, it’s driving a computer screen. It’s a self-driving computer, essentially.”

然后他话锋一转,主动切到广告。

这让我非常好奇——“自动驾驶电脑"到底是什么意思?恰好,前不久一位 xAI 工程师 Sulaiman Ghori 因为在播客上透露了太多内部信息而被开除(或"主动离职”),他详细描述了一个叫 MacroHard 的内部项目。

于是我做了一次系统性的调研,把两个播客的内容交叉比对,再结合 Reddit、Twitter 和技术博客上的讨论,试图还原 xAI 真正在做什么。


MacroHard 是什么?

MacroHard(取 Microsoft 微软的反义——“宏硬”)是 xAI 内部代号项目。核心目标:构建人类模拟器(Human Emulator)

简单说:AI 看屏幕,理解内容,然后操作键盘鼠标——完全模拟人类使用电脑的方式。不需要目标软件做任何 API 适配,直接像一个真人员工一样操作现有软件。

如果说 Tesla 的 Optimus 机器人是在物理世界模拟人类,MacroHard 就是在数字世界做同样的事。

人类模拟器


Elon 暗示了什么?Sully 泄露了什么?

这是最有意思的部分。Elon 在采访中刻意隐藏的信息,Sully 几乎全说了出来:

主题Elon 的说法Sully 的泄露
方法论“和 Tesla 自动驾驶的路线一样”多个全新架构在并行开发,至少一个不基于现有体系
速度没提1.5x 到 8x+ 人类操作速度
部署方式没提计划用北美 400 万辆 Tesla 的闲置 HW4 芯片做分布式推理
内部测试没提虚拟员工已在 xAI 内部运行,同事以为是真人
迭代速度没提模型每天甚至一天多次从预训练开始迭代
目标规模暗示"上千到上万"从 1,000 到 1,000,000 个虚拟员工

难怪 Sully 采访发布几天后就"不再在 xAI 工作了"。


技术架构:自动驾驶电脑

MacroHard 的核心架构与 Tesla FSD 高度同构:

Tesla FSDMacroHard
摄像头看路截屏看屏幕
理解路况理解 UI 和工作流
操控方向盘操控键盘鼠标
人类驾驶数据训练人类屏幕操作数据训练
车队 OTA 更新每日多次模型更新

Tesla FSD vs MacroHard 架构对照

最反直觉的设计决策是:xAI 选择了小模型 + 极快推理,而不是其他实验室的大模型 + 长推理链路线。结果是模型速度达到人类的 8 倍,一个虚拟员工可以抵 8 个人。

更激进的是部署方案——利用 Tesla 车辆网络。北美约 400 万辆 Tesla,约一半有 HW4 芯片,70-80% 时间在闲置充电。xAI 计划向车主付费租用闲置算力,直接在车上跑 Human Emulator。不需要建数据中心,纯软件部署。


社区怎么看?

社区反响两极分化,大致是:40% 支持、30% 质疑、30% 观望。

支持者认为这是 AI 领域的"最后一块拼图"——当 AI 能像人一样操作电脑时,几乎所有数字工作都可以被自动化。

质疑者指出:FSD 面对的是相对规范的道路场景,而屏幕操作的 UI 多样性远超驾驶。一位评论者写道:“你发明了世界上最贵的实习生,附带一张 GPU 账单。”

务实派则注意到:Anthropic 的 Computer Use 和 OpenAI 的 Operator 已经在做类似的事,MacroHard 的差异化不在方法论,而在执行规模和速度。


个人能复现吗?

这是我最关心的问题。答案是:核心交互模式可以,规模效应不行。

可以复现的部分

Browser Use(开源,50k+ GitHub stars)+ Claude Sonnet API,$5-20/月就能跑起一个基本的浏览器自动化 Agent。它能搜索、填表、提取数据、多标签操作——覆盖大部分日常浏览器工作流。

如果需要全桌面控制,Anthropic Computer Use API 提供了完整的截屏→理解→键鼠方案,$20-50/月。

无法复现的部分

  • 数据飞轮:xAI 有海量人类操作数据 → 更好模型 → 更多部署 → 更多数据。这个循环个人无法启动。
  • 8x 速度:API 调用延迟 + 推理 = 每步 2-5 秒,距离 8x 人类速度差距巨大。
  • Novel Architectures:xAI 正在开发可能不是 Transformer 的全新架构,这需要他们级别的算力来实验。
  • 百万级并发:这是基础设施问题,不是个人能解决的。

最佳切入点

Browser Use + Claude Sonnet,专注你最重复的 3 个工作流。 大部分知识工作发生在浏览器中,先做窄做深比做宽做浅有用 100 倍。这就是个人版的 MacroHard。


结论

MacroHard 不是科幻,也不是 PPT。虚拟员工已经在 xAI 内部跑着了。

它的真正壁垒不是技术方法论(截图→理解→操作,Anthropic 已经做到了),而是三层叠加的飞轮:海量数据、极端迭代速度、Tesla 车队算力网络。

但对于个人开发者来说,好消息是:核心方法论已经被开源社区复现,$5-20/月就能开始。不需要等 xAI 把产品卖给你——你现在就可以动手。

📊 查看完整调研报告 →


本文基于对 Elon Musk 采访(Dwarkesh Patel Podcast, 2026.2.5)、Sulaiman Ghori 采访(Relentless Podcast)、Reddit/Twitter 社区讨论以及多篇技术分析文章的综合调研撰写。

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee