xAI MacroHard 人类模拟器深度调研报告

Wide Research 深度调研报告

工作目录: 20260209-xai-macrohard-human-emulator-42b840

9
研究章节
24
核心发现
7
引用来源
7
数据表格

调研日期:2026-02-09 数据来源:Sulaiman Ghori 播客转录、Elon Musk 采访、Reddit/Twitter 社区讨论、技术分析文章、开源项目调研


摘要

MacroHard 是 xAI 内部代号项目,目标是构建"人类模拟器"——通过观看屏幕像素、输出键鼠操作来完全模拟人类数字工作。前工程师 Sulaiman Ghori 在播客中泄露了大量技术细节:该系统采用小模型+快速推理路线(8x 人类速度),正在开发多个"可能不是 Transformer"的新架构,模型每日甚至每天多次从预训练开始迭代。最具颠覆性的是部署方案——利用北美约 400 万辆 Tesla 的闲置 HW4 芯片作为分布式推理网络,将"硬件建设"问题转化为"软件部署"问题。虚拟员工已在 xAI 内部运行并出现在组织架构图上。个人开发者可通过 Browser Use + Claude API 在 $5-20/月预算内复现核心交互模式,但无法复制其数据飞轮和规模效应。


一、MacroHard 是什么?

1.1 项目概述

MacroHard 是 xAI 正在开发的"Digital Optimus"——如同 Tesla 的 Optimus 机器人执行物理任务,MacroHard 执行数字任务。系统直接模拟人类使用电脑的方式:看屏幕、理解内容、操作键盘鼠标,无需目标软件做任何适配。

Sully 在播客中的核心描述:

"anything where they need to digitally input keyboard and mouse inputs, which is usually what humans do and look at a screen back and make decisions, we just emulate what the human is doing directly. So no adoption from any software is required at all."

Elon 则将其概括为:"It's a self-driving computer, essentially."

E1 Ventures 的分析精准捕捉了其商业本质:"It is a direct bet that the UI layer is the true surface area of modern labor, and that an agent that can reliably work that surface becomes economically equivalent to a worker."

1.2 命名由来

"MacroHard"显然是对 Microsoft 的反讽命名。2025 年 8 月 1 日,xAI 正式提交了"MACROHARD"美国商标申请,覆盖极广泛的 AI 软件品类。The Verge 还发现了一家名为 Macrohard Ventures, LLC 的特拉华州实体。Elon 将其定位为"纯 AI 软件公司",核心论点是:不生产硬件的软件公司可以被 AI 完全复制。

1.3 与 Optimus 的关系

MacroHard 与 Optimus 是"数字世界 vs 物理世界"的镜像关系:

维度Optimus(物理)MacroHard(数字)
感知摄像头/传感器屏幕像素
理解3D 场景理解UI/工作流理解
输出肢体动作键盘鼠标操作
部署工厂/家庭任意电脑桌面

二、技术架构深度解析

2.1 核心工作原理:屏幕视觉 → AI 理解 → 键鼠输出

MacroHard 的技术管线是端到端的:屏幕捕获 → 视觉模型理解上下文 → 决策推理 → 键鼠操作输出 → 验证反馈循环。这与 Tesla FSD 的"摄像头 → 神经网络 → 驾驶动作"完全同构。

关键设计抉择是选择小模型而非大模型:

"For other human emulator type attempts in the other labs, the approach has been let's do more reasoning and build a bigger model. That decision put us in totally the opposite track of what everyone else is doing." — Sully

结果:模型速度达到人类的 8 倍以上(最低目标 1.5x)。这意味着一个 human emulator 可以抵 8 个人类员工的操作速度。

在显示适配方面,系统需要支持跨越 30 年的硬件——从老式显示器到最新 5K Apple 显示器,因此使用了多编码器架构处理不同分辨率。延迟方面,通过复用 voice 团队的低延迟基础设施,实现了 2.3x 端到端延迟优化

💡 名词解释:为什么延迟这么重要?什么是 Voice 团队?

Human Emulator 的工作循环是:截屏 → AI 理解 → 输出键鼠操作 → 等屏幕更新 → 再截屏……每一步的延迟会累积。如果每步要 2-3 秒,操作速度连人类都不如,更别说 8x 了。所以端到端延迟越低,虚拟员工就越快。

Voice 团队是 xAI 内部负责 Grok 语音对话功能的团队。他们为了实现实时语音交互,已经做了大量极低延迟的数据传输优化。Sully 做 MacroHard 时发现这套基础设施可以直接复用——只需要"翻几个开关改几个配置",就把端到端延迟降低了 2.3 倍。这种跨团队的意外复用,正是 xAI 扁平组织和高人才密度带来的优势。

2.2 与 Tesla FSD 的方法论对应

这是方法论复用,不是渐进式创新:

FSDMacroHard
摄像头视频流屏幕截图/视频流
道路场景理解UI/工作流理解
方向盘/油门/刹车键盘/鼠标操作
人类驾驶视频训练人类屏幕操作训练
车队 OTA 更新每日多次模型更新
车载芯片推理同一批 Tesla HW4 芯片推理

训练数据收集也沿用了 FSD 的思路——观察真实人类工作。Sully 描述了数据采集中发现的关键问题:人类员工描述自己的工作流程时会遗漏约 20 个步骤,因为很多操作已经变成无意识的"自动驾驶"。

2.3 Novel Architectures:可能不是 Transformer

这是最重磅的技术泄露之一。Sully 确认 xAI 正在同时开发多个全新架构

"we're working on some novel architectures, actually multiple at the same time"

"one of the novel architectures we're working on is not really possible unless you scale up your experiment rate because it's not building on any existing body of work. You need a new pre training body and you need also a new data set."

"不基于现有工作体系"、"需要全新预训练数据体"——这强烈暗示至少一个架构不是 Transformer。可能是 SSM/Mamba 变体、全新设计,或针对视觉-动作映射的专用架构。

💡 名词解释:Transformer、SSM、Mamba 是什么?

AI 模型需要一个底层架构,就像盖房子需要选框架结构。目前主流有三种:

Transformer(变形金刚架构):ChatGPT、Claude、Grok 都用的架构,当前绝对主流。核心是"注意力机制"——处理文字时同时看所有文字之间的关系。优点是理解能力极强,缺点是文字越长越慢(计算量随长度平方级增长)。

SSM(State Space Model,状态空间模型):一种更新的替代架构。不像 Transformer 同时看所有文字,SSM 像人读书一样从头到尾顺着读,把信息压缩成一个"状态"往前传。优点是处理长文本速度快得多(线性增长),缺点是理解复杂关系的能力可能弱一些。

Mamba:SSM 的一个具体实现(2023 年底发布),目前最出名的 SSM 架构。在 SSM 基础上加了"选择性"机制——能学会哪些信息重要哪些不重要。

为什么 MacroHard 可能不用 Transformer? 因为 Transformer 太慢了。MacroHard 要实现 8 倍人类速度,每一步(截屏→理解→操作)必须在毫秒级完成。SSM/Mamba 这类架构天然更快,更适合这种"实时反应"场景——就像自动驾驶也不能等 3 秒才决定转方向盘。

📚 想深入了解?推荐论文阅读清单

以下论文按"从基础到前沿"排列,帮你系统理解从 Transformer 到 SSM/Mamba 的演进:

Attention Is All You Need — Vaswani et al. (Google), 2017 Transformer 的开山之作。理解它才能理解后来的替代方案要解决什么问题。AI 领域引用量最高的论文之一。

HiPPO: Recurrent Memory with Optimal Polynomial Projections — Gu et al. (Stanford), 2020 SSM 的数学基础。提出了高效记忆长序列信息的理论框架,是后续 S4 和 Mamba 的理论根基。

Efficiently Modeling Long Sequences with Structured State Spaces (S4) — Gu et al. (Stanford), 2021 SSM 领域的 "Attention Is All You Need"。首次证明状态空间模型可以在长序列任务上媲美甚至超越 Transformer,且计算复杂度为线性。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces — Gu & Dao (CMU/Princeton), 2023 ⭐ 当前最重要的 SSM 论文。引入"选择性"机制,让 SSM 首次在语言建模上与 Transformer 打平。如果只读一篇,读这个。

Mamba-2: Structured State Space Duality — Dao & Gu, 2024 Mamba 的升级版,揭示了 SSM 和 Transformer 注意力机制之间的数学对偶关系。理论更优美,速度提升 2-8x。

Jamba: A Hybrid Transformer-Mamba Language Model — AI21 Labs, 2024 实际工程中的混合方案——把 Transformer 和 Mamba 层交替叠加。证明两种架构可以互补,不必二选一。

From S4 to Mamba: A Comprehensive Survey — 综述, 2025 最新综述论文,系统梳理了从 S4 到 Mamba 的整个 SSM 发展脉络。适合想全面了解的读者。

入门建议:先读论文 ① (理解 Transformer),再跳到论文 ④(理解 Mamba),最后读论文 ⑦(综述全貌)。论文 ② 和 ③ 偏数学,适合想深入理解原理的读者。

此外,Sully 暗示训练使用了自定义的权重更新方法(非标准 Adam/SGD):"your different methods for updating the weights do matter a lot"。

2.4 训练数据与迭代速度

迭代速度是 xAI 的核心竞争力。模型更新频率达到每日多次,包括从预训练开始的完整迭代

"we're coming out with new iterations daily, sometimes multiple times a day, which is from pre train in some cases"

这得益于:

Colossus 数据中心 122 天建成(利用"嘉年华许可"绕过建筑审批),硬件高度异构但训练系统已完成抽象化。

泛化能力方面,结果超预期:"just today we gave Elon a few cases where we did not train on this task at all. But it did it flawlessly"。

2.5 Tesla HW4 分布式部署方案

这是 MacroHard 最具颠覆性的战略构想。核心逻辑:

  1. 部署 100 万 human emulators 需要 100 万台电脑
  2. 北美约 400 万辆 Tesla,约一半配备 HW4,70-80% 时间闲置
  3. 向车主付费租用闲置算力,车辆已自带网络、散热、电力
  4. 将"硬件建设问题"变为"纯软件部署问题"

"We can really just pay owners to lease time off their car and let us run a human emulator, digital Optimus on right on it. And they get their lease paid for and we get a full human emulator"

从 1,000 到 1,000,000 的扩展"并不是最大的挑战"——基础设施已经存在(xAI 数据中心 + Tesla 车辆网络)。


三、Elon 暗示 vs Sully 泄露 对比分析

主题Elon(2/7 采访)Sully 泄露增量
方法论"pretty much the Tesla path"多个 novel architectures,至少一个非现有体系🔴 重大
速度未提及1.5x → 8x+ 人类速度🔴 重大
部署载体未提及 Tesla 车用于计算HW4 分布式推理 + 车主付费租用🔴 重大
内部测试未提及虚拟员工已运行,出现在 org chart🔴 重大
迭代速度未提及每日多次,含预训练完整迭代🔴 重大
规模目标"1,000 or 10,000"1,000 → 1M,扩展非主要挑战🟡 中等
模型路线暗示不需大模型明确小模型路线,反对大模型🟡 中等
数据采集暗示 human behavior面谈+观察+录制人类工作流🟡 中等
TAM"trillions of dollars"一致🟢 一致

Sully 的泄露至少包含 5 项重大新信息,这也解释了他随后被"假定解雇"。


四、社区反响与争议

4.1 支持者观点

LinkedIn 上 AI 从业者反应最积极。Ed Nevsky 评价:"This is something that might truly change the course of history if it works well. Human-level automation with full browser/computer control is the last missing piece in the current LLM craze."

投资分析师 Bradford Stanley 更为直接:"Markets pricing AI as 'hype' may find that the hype was the skepticism."

Tesla 投资者社区对 HW4 分布式算力构想尤为兴奋,认为这赋予了 Tesla 车辆网络全新的价值叙事。

4.2 质疑与批评

E1 Ventures 评论区有尖锐批评:"Human emulators will never work because the entire premise assumes that real work is just clicking buttons in the right order... you've invented the world's most expensive intern with a GPU bill."

eWeek 报道指出实际困难:"Building AI workers for customers is especially difficult because people often forget to explain all the small, routine steps that make up their jobs."

HackerNews 社区对 Musk 相关项目持保守态度,讨论热度明显低于 Reddit/LinkedIn。

4.3 关键争议点

  1. 技术可行性:FSD 已验证视觉+决策路径可行,但屏幕操作的 UI 多样性远超驾驶场景
  2. Tesla 分布式算力:延迟、带宽、车主接受度、数据隐私均未验证
  3. 竞争窗口:Anthropic Computer Use 已公开可用,OpenAI Operator 已上线——MacroHard 仍在内部测试
  4. 泄密影响:路线图曝光可能加速竞争对手调整策略,但也带来了巨大免费 PR

社区情绪约为:支持 40%、质疑 30%、观望 30%。


五、竞品对比

5.1 Anthropic Computer Use

目前技术最成熟的全桌面 Computer Use 方案。通过 Claude API 截图分析+键鼠控制,有完整参考实现和安全 VM 隔离。OSWorld 基准表现顶级。已公开 Beta,开发者可直接使用。月成本 $10-50。

5.2 OpenAI Operator

已上线(美国 Pro 用户 $200/月),主要覆盖 Web 浏览器自动化。开箱即用体验最好,但功能范围受限——不支持全桌面操作。

5.3 开源方案生态

方案Stars覆盖范围成熟度
Browser Use50k+浏览器⭐⭐⭐⭐⭐
Agent S29.7k全桌面⭐⭐⭐⭐
CogAgent-9B2k+GUI 视觉⭐⭐⭐
ShowUI (2B)研究GUI 理解⭐⭐⭐
OmniParserUI 解析⭐⭐⭐⭐

MacroHard 与竞品的核心差异:Tesla FSD 训练范式迁移 + Tesla 车队分布式算力 + 极端迭代速度。方法论相似,壁垒在执行。


六、个人复现指南

6.1 方案一:最小可行(1-2天,$5-20/月)

工具:Browser Use + Claude Sonnet API

pip install browser-use playwright
playwright install chromium
export ANTHROPIC_API_KEY="sk-ant-..."

覆盖 80% 的浏览器自动化场景(搜索、填表、数据提取、多标签操作)。两台 Mac 均可完美运行。Browser Use 是当前生态最成熟方案(50k stars,YC 孵化)。

6.2 方案二:进阶(1-2周,$20-50/月)

架构:Agent S2 + OmniParser(本地 UI 解析)+ ShowUI(2B GUI 理解)+ Claude API + ChromaDB(记忆层)

增加全桌面控制、操作历史记忆、错误恢复机制。需要配置 macOS 辅助功能和屏幕录制权限。

6.3 方案三:理想(1-3月,$50/月 + $150初始投入)

构建完整数据管线:录屏 → 动作标注 → SFT 数据集 → 模型微调 → self-play 循环。目标收集 500+ 小时个人操作数据,用 LoRA 微调 ShowUI/CogAgent。最接近 MacroHard 的交互模式,总投入约 $300。

6.4 成本对比表

方案初始成本月度成本效果搭建时间
方案一 MVP$0$5-2060分1-2天
方案二 进阶~$50$25-5075分1-2周
方案三 理想~$150$40-5085分1-3月
MacroHard$6B+数百万$95分4+月战争室

6.5 硬件适配

M4 Pro 24GB:可运行量化 7-9B 模型(~5-10 tokens/s),对 GUI Agent 低频调用场景勉强够用。OmniParser + ShowUI 本地流畅运行。API 方案无任何限制。

M1 Pro 16GB:仅适合 API-based 方案或 2B 小模型(ShowUI)。7B+ 模型量化后与系统争抢内存,体验差。建议纯 API 路线。


七、关键洞察与结论

7.1 MacroHard 的真正壁垒

不是模型,不是方法论,是数据飞轮 + 基础设施。

核心壁垒三层:

  1. 数据飞轮:大规模人类操作数据 → 更好模型 → 更多部署 → 更多数据
  2. 迭代速度:每日多次完整迭代(含预训练),竞争对手以周/月计
  3. Tesla 车队网络:400 万辆车的闲置 HW4 = 世界最大潜在分布式推理网络,零基建投入

方法论本身(截图→理解→操作)已被 Anthropic 和开源社区复现。xAI 的差异化在执行规模和速度。

7.2 个人能复现什么?不能复现什么?

✅ 可以复现:

❌ 无法复现:

7.3 最有价值的切入点

Browser Use + Claude Sonnet,专注你最重复的 3 个工作流。

理由:大部分知识工作发生在浏览器中;Browser Use 最成熟(50k stars);成本极低($5-20/月);先做窄做深比做宽做浅有用 100 倍。

具体行动:识别每天最耗时的重复任务(整理邮件、搜索信息、填写报表),逐个自动化。这就是个人版的 MacroHard。


附录

信息来源列表

类型来源链接
原始播客Sully @ Relentless Podcasthttps://www.youtube.com/watch?v=8jN60eJr4Ps
深度分析E1 Ventureshttps://e1ventures.substack.com/p/human-emulators-and-the-next-break
工程文化Neural Intelhttps://neuralintel.org/blog/inside-the-war-room-7-wild-truths-about-the-engineering-culture-at-xai
技术博客NextBigFuturehttps://www.nextbigfuture.com/2026/01/inside-xai-and-future-of-millions-of-emulated-humans.html
报道Business Insiderhttps://www.businessinsider.com/xai-engineer-sulaiman-ghori-leaves-company-relentless-podcast-elon-musk-2026-1
报道eWeekhttps://www.eweek.com/news/xai-ai-human-emulators/
报道CoinCodexhttps://coincodex.com/article/80539/xai-engineer-leaves-after-sharing-secret-macrohard-human-emulation-project/
分析Medium (Fahey)https://medium.com/@fahey_james/macrohard-what-it-is-and-what-it-isnt-yet-3a08de39ca22
投资分析The Frequency Cipherhttps://bradfordstanleycfa.substack.com/p/the-agentic-workforce
竞品对比WorkOS Bloghttps://workos.com/blog/anthropics-computer-use-versus-openais-computer-using-agent-cua
Redditr/singularityhttps://www.reddit.com/r/singularity/comments/1qh9v60/
Redditr/singularity (商标)https://www.reddit.com/r/singularity/comments/1mg3ga1/

开源项目链接汇总

项目链接Stars用途
Browser Usehttps://github.com/browser-use/browser-use50k+浏览器 Agent
Agent S2https://github.com/simular-ai/Agent-S9.7k全桌面 Agent
Anthropic Quickstartshttps://github.com/anthropics/anthropic-quickstartsComputer Use 参考实现
OmniParserhttps://github.com/microsoft/OmniParserUI 截图解析
ShowUIhttps://github.com/showlab/ShowUI研究轻量 GUI 理解 (2B)
CogAgenthttps://github.com/THUDM/CogAgent2k+视觉 GUI Agent (9B)
SWE-Agenthttps://github.com/princeton-nlp/SWE-agent14.2k代码修复 Agent