Wide Research 深度调研报告
调研日期:2026-02-09 数据来源:Sulaiman Ghori 播客转录、Elon Musk 采访、Reddit/Twitter 社区讨论、技术分析文章、开源项目调研
MacroHard 是 xAI 内部代号项目,目标是构建"人类模拟器"——通过观看屏幕像素、输出键鼠操作来完全模拟人类数字工作。前工程师 Sulaiman Ghori 在播客中泄露了大量技术细节:该系统采用小模型+快速推理路线(8x 人类速度),正在开发多个"可能不是 Transformer"的新架构,模型每日甚至每天多次从预训练开始迭代。最具颠覆性的是部署方案——利用北美约 400 万辆 Tesla 的闲置 HW4 芯片作为分布式推理网络,将"硬件建设"问题转化为"软件部署"问题。虚拟员工已在 xAI 内部运行并出现在组织架构图上。个人开发者可通过 Browser Use + Claude API 在 $5-20/月预算内复现核心交互模式,但无法复制其数据飞轮和规模效应。
MacroHard 是 xAI 正在开发的"Digital Optimus"——如同 Tesla 的 Optimus 机器人执行物理任务,MacroHard 执行数字任务。系统直接模拟人类使用电脑的方式:看屏幕、理解内容、操作键盘鼠标,无需目标软件做任何适配。
Sully 在播客中的核心描述:
"anything where they need to digitally input keyboard and mouse inputs, which is usually what humans do and look at a screen back and make decisions, we just emulate what the human is doing directly. So no adoption from any software is required at all."
Elon 则将其概括为:"It's a self-driving computer, essentially."
E1 Ventures 的分析精准捕捉了其商业本质:"It is a direct bet that the UI layer is the true surface area of modern labor, and that an agent that can reliably work that surface becomes economically equivalent to a worker."
"MacroHard"显然是对 Microsoft 的反讽命名。2025 年 8 月 1 日,xAI 正式提交了"MACROHARD"美国商标申请,覆盖极广泛的 AI 软件品类。The Verge 还发现了一家名为 Macrohard Ventures, LLC 的特拉华州实体。Elon 将其定位为"纯 AI 软件公司",核心论点是:不生产硬件的软件公司可以被 AI 完全复制。
MacroHard 与 Optimus 是"数字世界 vs 物理世界"的镜像关系:
| 维度 | Optimus(物理) | MacroHard(数字) |
|---|---|---|
| 感知 | 摄像头/传感器 | 屏幕像素 |
| 理解 | 3D 场景理解 | UI/工作流理解 |
| 输出 | 肢体动作 | 键盘鼠标操作 |
| 部署 | 工厂/家庭 | 任意电脑桌面 |
MacroHard 的技术管线是端到端的:屏幕捕获 → 视觉模型理解上下文 → 决策推理 → 键鼠操作输出 → 验证反馈循环。这与 Tesla FSD 的"摄像头 → 神经网络 → 驾驶动作"完全同构。
关键设计抉择是选择小模型而非大模型:
"For other human emulator type attempts in the other labs, the approach has been let's do more reasoning and build a bigger model. That decision put us in totally the opposite track of what everyone else is doing." — Sully
结果:模型速度达到人类的 8 倍以上(最低目标 1.5x)。这意味着一个 human emulator 可以抵 8 个人类员工的操作速度。
在显示适配方面,系统需要支持跨越 30 年的硬件——从老式显示器到最新 5K Apple 显示器,因此使用了多编码器架构处理不同分辨率。延迟方面,通过复用 voice 团队的低延迟基础设施,实现了 2.3x 端到端延迟优化。
💡 名词解释:为什么延迟这么重要?什么是 Voice 团队?
Human Emulator 的工作循环是:截屏 → AI 理解 → 输出键鼠操作 → 等屏幕更新 → 再截屏……每一步的延迟会累积。如果每步要 2-3 秒,操作速度连人类都不如,更别说 8x 了。所以端到端延迟越低,虚拟员工就越快。
Voice 团队是 xAI 内部负责 Grok 语音对话功能的团队。他们为了实现实时语音交互,已经做了大量极低延迟的数据传输优化。Sully 做 MacroHard 时发现这套基础设施可以直接复用——只需要"翻几个开关改几个配置",就把端到端延迟降低了 2.3 倍。这种跨团队的意外复用,正是 xAI 扁平组织和高人才密度带来的优势。
这是方法论复用,不是渐进式创新:
| FSD | MacroHard |
|---|---|
| 摄像头视频流 | 屏幕截图/视频流 |
| 道路场景理解 | UI/工作流理解 |
| 方向盘/油门/刹车 | 键盘/鼠标操作 |
| 人类驾驶视频训练 | 人类屏幕操作训练 |
| 车队 OTA 更新 | 每日多次模型更新 |
| 车载芯片推理 | 同一批 Tesla HW4 芯片推理 |
训练数据收集也沿用了 FSD 的思路——观察真实人类工作。Sully 描述了数据采集中发现的关键问题:人类员工描述自己的工作流程时会遗漏约 20 个步骤,因为很多操作已经变成无意识的"自动驾驶"。
这是最重磅的技术泄露之一。Sully 确认 xAI 正在同时开发多个全新架构:
"we're working on some novel architectures, actually multiple at the same time"
"one of the novel architectures we're working on is not really possible unless you scale up your experiment rate because it's not building on any existing body of work. You need a new pre training body and you need also a new data set."
"不基于现有工作体系"、"需要全新预训练数据体"——这强烈暗示至少一个架构不是 Transformer。可能是 SSM/Mamba 变体、全新设计,或针对视觉-动作映射的专用架构。
💡 名词解释:Transformer、SSM、Mamba 是什么?
AI 模型需要一个底层架构,就像盖房子需要选框架结构。目前主流有三种:
Transformer(变形金刚架构):ChatGPT、Claude、Grok 都用的架构,当前绝对主流。核心是"注意力机制"——处理文字时同时看所有文字之间的关系。优点是理解能力极强,缺点是文字越长越慢(计算量随长度平方级增长)。
SSM(State Space Model,状态空间模型):一种更新的替代架构。不像 Transformer 同时看所有文字,SSM 像人读书一样从头到尾顺着读,把信息压缩成一个"状态"往前传。优点是处理长文本速度快得多(线性增长),缺点是理解复杂关系的能力可能弱一些。
Mamba:SSM 的一个具体实现(2023 年底发布),目前最出名的 SSM 架构。在 SSM 基础上加了"选择性"机制——能学会哪些信息重要哪些不重要。
为什么 MacroHard 可能不用 Transformer? 因为 Transformer 太慢了。MacroHard 要实现 8 倍人类速度,每一步(截屏→理解→操作)必须在毫秒级完成。SSM/Mamba 这类架构天然更快,更适合这种"实时反应"场景——就像自动驾驶也不能等 3 秒才决定转方向盘。
📚 想深入了解?推荐论文阅读清单
以下论文按"从基础到前沿"排列,帮你系统理解从 Transformer 到 SSM/Mamba 的演进:
① Attention Is All You Need — Vaswani et al. (Google), 2017 Transformer 的开山之作。理解它才能理解后来的替代方案要解决什么问题。AI 领域引用量最高的论文之一。
② HiPPO: Recurrent Memory with Optimal Polynomial Projections — Gu et al. (Stanford), 2020 SSM 的数学基础。提出了高效记忆长序列信息的理论框架,是后续 S4 和 Mamba 的理论根基。
③ Efficiently Modeling Long Sequences with Structured State Spaces (S4) — Gu et al. (Stanford), 2021 SSM 领域的 "Attention Is All You Need"。首次证明状态空间模型可以在长序列任务上媲美甚至超越 Transformer,且计算复杂度为线性。
④ Mamba: Linear-Time Sequence Modeling with Selective State Spaces — Gu & Dao (CMU/Princeton), 2023 ⭐ 当前最重要的 SSM 论文。引入"选择性"机制,让 SSM 首次在语言建模上与 Transformer 打平。如果只读一篇,读这个。
⑤ Mamba-2: Structured State Space Duality — Dao & Gu, 2024 Mamba 的升级版,揭示了 SSM 和 Transformer 注意力机制之间的数学对偶关系。理论更优美,速度提升 2-8x。
⑥ Jamba: A Hybrid Transformer-Mamba Language Model — AI21 Labs, 2024 实际工程中的混合方案——把 Transformer 和 Mamba 层交替叠加。证明两种架构可以互补,不必二选一。
⑦ From S4 to Mamba: A Comprehensive Survey — 综述, 2025 最新综述论文,系统梳理了从 S4 到 Mamba 的整个 SSM 发展脉络。适合想全面了解的读者。
入门建议:先读论文 ① (理解 Transformer),再跳到论文 ④(理解 Mamba),最后读论文 ⑦(综述全貌)。论文 ② 和 ③ 偏数学,适合想深入理解原理的读者。
此外,Sully 暗示训练使用了自定义的权重更新方法(非标准 Adam/SGD):"your different methods for updating the weights do matter a lot"。
迭代速度是 xAI 的核心竞争力。模型更新频率达到每日多次,包括从预训练开始的完整迭代:
"we're coming out with new iterations daily, sometimes multiple times a day, which is from pre train in some cases"
这得益于:
Colossus 数据中心 122 天建成(利用"嘉年华许可"绕过建筑审批),硬件高度异构但训练系统已完成抽象化。
泛化能力方面,结果超预期:"just today we gave Elon a few cases where we did not train on this task at all. But it did it flawlessly"。
这是 MacroHard 最具颠覆性的战略构想。核心逻辑:
"We can really just pay owners to lease time off their car and let us run a human emulator, digital Optimus on right on it. And they get their lease paid for and we get a full human emulator"
从 1,000 到 1,000,000 的扩展"并不是最大的挑战"——基础设施已经存在(xAI 数据中心 + Tesla 车辆网络)。
| 主题 | Elon(2/7 采访) | Sully 泄露 | 增量 |
|---|---|---|---|
| 方法论 | "pretty much the Tesla path" | 多个 novel architectures,至少一个非现有体系 | 🔴 重大 |
| 速度 | 未提及 | 1.5x → 8x+ 人类速度 | 🔴 重大 |
| 部署载体 | 未提及 Tesla 车用于计算 | HW4 分布式推理 + 车主付费租用 | 🔴 重大 |
| 内部测试 | 未提及 | 虚拟员工已运行,出现在 org chart | 🔴 重大 |
| 迭代速度 | 未提及 | 每日多次,含预训练完整迭代 | 🔴 重大 |
| 规模目标 | "1,000 or 10,000" | 1,000 → 1M,扩展非主要挑战 | 🟡 中等 |
| 模型路线 | 暗示不需大模型 | 明确小模型路线,反对大模型 | 🟡 中等 |
| 数据采集 | 暗示 human behavior | 面谈+观察+录制人类工作流 | 🟡 中等 |
| TAM | "trillions of dollars" | 一致 | 🟢 一致 |
Sully 的泄露至少包含 5 项重大新信息,这也解释了他随后被"假定解雇"。
LinkedIn 上 AI 从业者反应最积极。Ed Nevsky 评价:"This is something that might truly change the course of history if it works well. Human-level automation with full browser/computer control is the last missing piece in the current LLM craze."
投资分析师 Bradford Stanley 更为直接:"Markets pricing AI as 'hype' may find that the hype was the skepticism."
Tesla 投资者社区对 HW4 分布式算力构想尤为兴奋,认为这赋予了 Tesla 车辆网络全新的价值叙事。
E1 Ventures 评论区有尖锐批评:"Human emulators will never work because the entire premise assumes that real work is just clicking buttons in the right order... you've invented the world's most expensive intern with a GPU bill."
eWeek 报道指出实际困难:"Building AI workers for customers is especially difficult because people often forget to explain all the small, routine steps that make up their jobs."
HackerNews 社区对 Musk 相关项目持保守态度,讨论热度明显低于 Reddit/LinkedIn。
社区情绪约为:支持 40%、质疑 30%、观望 30%。
目前技术最成熟的全桌面 Computer Use 方案。通过 Claude API 截图分析+键鼠控制,有完整参考实现和安全 VM 隔离。OSWorld 基准表现顶级。已公开 Beta,开发者可直接使用。月成本 $10-50。
已上线(美国 Pro 用户 $200/月),主要覆盖 Web 浏览器自动化。开箱即用体验最好,但功能范围受限——不支持全桌面操作。
| 方案 | Stars | 覆盖范围 | 成熟度 |
|---|---|---|---|
| Browser Use | 50k+ | 浏览器 | ⭐⭐⭐⭐⭐ |
| Agent S2 | 9.7k | 全桌面 | ⭐⭐⭐⭐ |
| CogAgent-9B | 2k+ | GUI 视觉 | ⭐⭐⭐ |
| ShowUI (2B) | 研究 | GUI 理解 | ⭐⭐⭐ |
| OmniParser | 高 | UI 解析 | ⭐⭐⭐⭐ |
MacroHard 与竞品的核心差异:Tesla FSD 训练范式迁移 + Tesla 车队分布式算力 + 极端迭代速度。方法论相似,壁垒在执行。
工具:Browser Use + Claude Sonnet API
pip install browser-use playwright
playwright install chromium
export ANTHROPIC_API_KEY="sk-ant-..."
覆盖 80% 的浏览器自动化场景(搜索、填表、数据提取、多标签操作)。两台 Mac 均可完美运行。Browser Use 是当前生态最成熟方案(50k stars,YC 孵化)。
架构:Agent S2 + OmniParser(本地 UI 解析)+ ShowUI(2B GUI 理解)+ Claude API + ChromaDB(记忆层)
增加全桌面控制、操作历史记忆、错误恢复机制。需要配置 macOS 辅助功能和屏幕录制权限。
构建完整数据管线:录屏 → 动作标注 → SFT 数据集 → 模型微调 → self-play 循环。目标收集 500+ 小时个人操作数据,用 LoRA 微调 ShowUI/CogAgent。最接近 MacroHard 的交互模式,总投入约 $300。
| 方案 | 初始成本 | 月度成本 | 效果 | 搭建时间 |
|---|---|---|---|---|
| 方案一 MVP | $0 | $5-20 | 60分 | 1-2天 |
| 方案二 进阶 | ~$50 | $25-50 | 75分 | 1-2周 |
| 方案三 理想 | ~$150 | $40-50 | 85分 | 1-3月 |
| MacroHard | $6B+ | 数百万$ | 95分 | 4+月战争室 |
M4 Pro 24GB:可运行量化 7-9B 模型(~5-10 tokens/s),对 GUI Agent 低频调用场景勉强够用。OmniParser + ShowUI 本地流畅运行。API 方案无任何限制。
M1 Pro 16GB:仅适合 API-based 方案或 2B 小模型(ShowUI)。7B+ 模型量化后与系统争抢内存,体验差。建议纯 API 路线。
不是模型,不是方法论,是数据飞轮 + 基础设施。
核心壁垒三层:
方法论本身(截图→理解→操作)已被 Anthropic 和开源社区复现。xAI 的差异化在执行规模和速度。
✅ 可以复现:
❌ 无法复现:
Browser Use + Claude Sonnet,专注你最重复的 3 个工作流。
理由:大部分知识工作发生在浏览器中;Browser Use 最成熟(50k stars);成本极低($5-20/月);先做窄做深比做宽做浅有用 100 倍。
具体行动:识别每天最耗时的重复任务(整理邮件、搜索信息、填写报表),逐个自动化。这就是个人版的 MacroHard。
| 类型 | 来源 | 链接 |
|---|---|---|
| 原始播客 | Sully @ Relentless Podcast | https://www.youtube.com/watch?v=8jN60eJr4Ps |
| 深度分析 | E1 Ventures | https://e1ventures.substack.com/p/human-emulators-and-the-next-break |
| 工程文化 | Neural Intel | https://neuralintel.org/blog/inside-the-war-room-7-wild-truths-about-the-engineering-culture-at-xai |
| 技术博客 | NextBigFuture | https://www.nextbigfuture.com/2026/01/inside-xai-and-future-of-millions-of-emulated-humans.html |
| 报道 | Business Insider | https://www.businessinsider.com/xai-engineer-sulaiman-ghori-leaves-company-relentless-podcast-elon-musk-2026-1 |
| 报道 | eWeek | https://www.eweek.com/news/xai-ai-human-emulators/ |
| 报道 | CoinCodex | https://coincodex.com/article/80539/xai-engineer-leaves-after-sharing-secret-macrohard-human-emulation-project/ |
| 分析 | Medium (Fahey) | https://medium.com/@fahey_james/macrohard-what-it-is-and-what-it-isnt-yet-3a08de39ca22 |
| 投资分析 | The Frequency Cipher | https://bradfordstanleycfa.substack.com/p/the-agentic-workforce |
| 竞品对比 | WorkOS Blog | https://workos.com/blog/anthropics-computer-use-versus-openais-computer-using-agent-cua |
| r/singularity | https://www.reddit.com/r/singularity/comments/1qh9v60/ | |
| r/singularity (商标) | https://www.reddit.com/r/singularity/comments/1mg3ga1/ |
| 项目 | 链接 | Stars | 用途 |
|---|---|---|---|
| Browser Use | https://github.com/browser-use/browser-use | 50k+ | 浏览器 Agent |
| Agent S2 | https://github.com/simular-ai/Agent-S | 9.7k | 全桌面 Agent |
| Anthropic Quickstarts | https://github.com/anthropics/anthropic-quickstarts | — | Computer Use 参考实现 |
| OmniParser | https://github.com/microsoft/OmniParser | 高 | UI 截图解析 |
| ShowUI | https://github.com/showlab/ShowUI | 研究 | 轻量 GUI 理解 (2B) |
| CogAgent | https://github.com/THUDM/CogAgent | 2k+ | 视觉 GUI Agent (9B) |
| SWE-Agent | https://github.com/princeton-nlp/SWE-agent | 14.2k | 代码修复 Agent |