我给 iPhone 装了个 AI 视觉助手,它能调用我电脑上的 Claude

两天前,一个 366 stars 的开源项目让我把 iPhone 变成了 AI 视觉助手——对着任何东西说话,它不仅能看懂,还能调动我电脑上的 Claude 去执行任务。

项目叫 VisionClaw,基于 Meta Ray-Ban 智能眼镜的 SDK 开发。但即使没有眼镜,用 iPhone 摄像头也能体验完整功能。


这是什么

VisionClaw 的核心是一套双模型架构:

iPhone 摄像头 + 麦克风
        │
        ▼
  Gemini 2.5 Flash ──── 实时语音 + 视觉理解("眼睛和嘴巴")
        │
        │ tool call
        ▼
  OpenClaw Gateway (Mac) ──── Claude 执行操作("手和脑")
        │
        ▼
  Clawdbot / Claude Code

为什么要用两个模型?因为它们各有所长。

Gemini 的实时流式音视频能力目前是最好的——你对着手机说话的同时,它能看到摄像头画面,理解你在看什么、问什么。这种多模态实时交互,目前没有其他模型能做到同样流畅。

而 Claude 的工具执行和推理能力更强。当 Gemini 判断你的请求需要"做点什么"(搜索、发消息、操作电脑),它会通过 OpenClaw Gateway 把任务传给 Mac 上的 Claude 去执行。

两者组合的效果是:你对着手机摄像头说"帮我查一下这个东西的价格",Gemini 负责理解你在看什么、你想干什么,Claude 负责实际去查。


安全审计

项目只有 366 stars,创建仅 2 天。在安装任何这种需要摄像头、麦克风权限的开源项目之前,代码审计是必须的。

我做了 6 项检查,全部通过:

检查项结果
网络请求仅连接 Google Gemini API + 本地 Mac OpenClaw Gateway
数据发送仅摄像头帧(JPEG 50% quality, 1fps)+ 音频 + tool call 文本
第三方依赖仅 Meta Wearables DAT SDK(Facebook 官方)
系统权限摄像头 + 麦克风(核心功能需要),无通讯录 / 位置请求
OpenClaw 通信只传任务文本和认证 token,不泄露 Clawdbot 的会话 / 记忆数据
System Prompt无引导 AI 读取私人数据的指令

简单说:它只把必要的视觉和语音数据发给 Gemini,不碰你手机上的其他东西。OpenClaw Gateway 那边也做了隔离,Claude 只收到任务描述,看不到你和 Gemini 的完整对话历史。


安装踩坑

记录几个主要的坑,给后来者省时间。

Xcode 签名配置。 原作者的 Team ID 和 Bundle ID 需要替换成自己的。一个容易踩的坑:macOS Keychain 里显示的证书 ID 和 Xcode 的 Personal Team ID 不是一回事,别搞混了。

iPhone Developer Mode。 iOS 16+ 必须手动开启开发者模式才能侧载 App。路径:设置 → 隐私与安全性 → 开发者模式。开启后需要重启。

没有 Meta 眼镜怎么办。 这是最容易卡住的地方。项目默认假设你有一副 Meta Ray-Ban,没有眼镜的话,App 界面上看不到"Start on iPhone"按钮。解法是用 Mock Device Kit 模拟一个虚拟眼镜——依次执行 Power On、Don、Unfold 三个操作,跳过注册流程后按钮就出现了。

Gateway 配置。 OpenClaw Gateway 默认绑定 loopback 地址(127.0.0.1),iPhone 访问不到。需要改成局域网地址(0.0.0.0),同时确认添加了 chatCompletions endpoint。


实际体验

说实话,纯语音视觉对话的体验和直接打开 Claude App、开启摄像头差别不大。Gemini 的理解能力不错,但单论"看图说话",这不算新鲜事。

差异化在于 tool call。 你可以对着东西说"帮我搜一下这个"、“发个消息给某人”,Gemini 识别出这是一个需要执行的任务后,会通过 OpenClaw 调用 Mac 上的 Claude 去处理。这是普通的视觉对话 App 做不到的。

但实际使用中,这条链路——Gemini 识别意图、通过 Gateway 传递任务、Claude 执行、结果返回、Gemini 语音播报——体验还比较粗糙。延迟明显,中间环节出错后的恢复也不够优雅。

出门使用更受限。Gateway 跑在 Mac 上,iPhone 必须和 Mac 在同一个局域网。用 Tailscale 打通当然可以,但代价是 iPhone 常驻 VPN、每天多耗 7-15% 电量、状态栏永远挂着一个 VPN 图标。这个摩擦成本对日常使用来说太高了。


为什么我觉得现阶段用处有限

这是我最想说的部分。

对于我这种高度 DIY、在电脑上写了大量 Agent Skills 的玩家来说,电脑端的 Claude Code 能够实时看到 Agent 输出的每一步结果——它正在读哪个文件、调了什么工具、生成了什么中间结果——这才是最优体验。

VisionClaw 的根本问题在于:通过手机或眼镜下达任务后,你看不到 AI Agent 的执行过程。

你不知道它正在做什么。如果它做错了,你无法实时喊停。这直接导致两个问题:

第一,token 浪费。Agent 可能在错误的方向上跑了很久,你却浑然不知。等结果回来发现不对,前面消耗的 token 全白费了。

第二,安全隐患。如果 Agent 执行了你不想要的操作——比如发错消息、删错文件——你来不及阻止。在电脑上用 Claude Code,你至少能看到它每一步在干什么,觉得不对可以随时 Ctrl+C。通过手机语音下指令,这个安全网就没了。

这其实指向一个更深层的问题:纯语音界面 + AI Agent 的组合,在当前阶段还缺少一个关键环节——实时反馈和人类干预的通道。

如果部署到 Meta Ray-Ban Display($799,带全彩显示屏)或未来的 Meta Orion(真 AR 眼镜,70 度 FOV,预计 2027 年消费版),能在镜片上看到 Agent 的实时输出,体验会好很多。但在那之前,用 iPhone 屏幕去承载这个反馈,不如直接用电脑。

再加上网络限制(同一 WiFi 或 Tailscale),目前的实用性确实有限。


但我依然看好这个方向

说了这么多限制,为什么我还是花了半天时间装了这个项目?

因为 VisionClaw 让我兴奋的不是产品本身的完成度,而是它代表的生态变化。

OpenClaw/Clawdbot 打开了一扇门——它让 AI Agent 不再局限于终端窗口,可以通过任何设备、任何界面来调用。这恰恰是我去年一直在调研、想做却做不出来的东西。现在看到有人做出来了,而且是开源的,技术确实日新月异。

从"电脑上的 Claude Code"到"Telegram 上的 Clawdbot"再到"眼镜上的 VisionClaw",入口在变,但背后的 Agent 能力是同一套。这种"一个大脑,多个入口"的架构,才是未来的方向。

今天的 VisionClaw 还很粗糙,但它验证了一个关键假设:AI Agent 的交互界面可以脱离屏幕。等显示技术跟上(AR 眼镜)、网络问题解决(本地模型或更好的远程方案),这类产品会变得真正实用。

希望看到更多这样的尝试。


相关链接

  • VisionClaw GitHub – 本文讨论的开源项目
  • Meta Wearables DAT SDK – Facebook 官方的智能眼镜开发套件
  • OpenClaw – 提供 Gateway 能力的开源框架,连接外部设备与本地 AI Agent

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee