我构建了一套 AI 个人进化系统:语音驱动、自动蒸馏、越用越懂你
TL;DR 我搭了一套基于苹果自带语音备忘录(Voice Memos)的 AI 个人系统,日均处理 20 到 40 条录音。核心不是语音转文字,而是一条完整的管线:录音 → 本地转录 → AI 分类执行 → 信任分级 → 邮件通知 → SSH 继续对话。整套系统运行在 $200/月的 Claude Max 订阅上,AI 会随使用自动积累你的行为模式、决策偏好和方法论。用得越久,越懂你。
AI 正在变得更便宜、更聪明。但有一个问题始终没被解决:它不认识你。
你打开 ChatGPT、Claude、Gemini,每次都是一个全新的对话。AI 不知道你在做什么项目、你的技术栈是什么、你昨天做了什么决策、你讨厌什么样的写作风格。它能给你的,只是一个面向所有人的平均水平回答。
我过去几个月一直在解决这个问题。最终搭建出来的,是一套围绕个人认知持续进化的系统:AI 在日常使用中不断积累关于我的上下文,定期把观察蒸馏成方法论规则,然后在后续交互中自动应用这些规则。每一次对话都在让下一次对话变得更好。
这套系统的日常入口是苹果自带的语音备忘录。iPhone、iPad、Apple Watch、Mac,任何一台苹果设备都可以录入。跑步时闪过的灵感、做饭时想到的待办、散步时冒出的技术方案,打开语音备忘录说一句话就够了。AI 在后台自动处理,三分钟后结果通过邮件送达。电脑前的深度工作和移动场景的轻量交互,两条路径并行。
下面我完整拆解这套系统的每一层。
为什么 AI 只会给你"正确的废话"
LLM 训练的本质是 Next Token Prediction:输出概率最高的下一个 token。概率最高意味着大多数人会同意,也就是共识。RLHF 在此之上又叠了一层:安全对齐惩罚有争议的、强观点的输出,奖励平衡、全面、不偏不倚的回答。两层机制叠加,LLM 的默认行为就是回归均值。
这意味着一件事:AI 模型升级解决的是信息不对称(你不知道的事情现在知道了),但解决不了认知不对称。面对同一份行业报告,二十年老兵和刚入行的新人看到的是完全不同的东西。老兵有一套从反复试错中构建的判断系统,知道哪些数据是噪音,哪些异常信号暗示趋势。新人没有这个过滤器,就算给他十倍长度的报告也做不出同样质量的判断。AI 的默认输出,本质上就是那个新人的水平:什么都对,但没有判断。
换一个角度理解:AI 已经从 CPU-bound 转向了 Memory-bound。 模型智能越过一个阈值后,继续升级模型带来的边际收益递减。决定输出本质的不再是模型智能,而是上下文。就像计算机发展中 CPU 快到一定程度后,瓶颈转移到了内存架构。每一次模型升级让智能更便宜、人人可得。而你的个人上下文只属于你,模型升级不会让它贬值。持续投资一个贬值的维度(模型智能)回报递减;投资一个不贬值的维度(个人上下文)才有复利。
所以,现阶段使用 AI 能带来最大复利效应的行为,是有意识地积累自己与 AI 的所有互动数据,并定期将这些数据蒸馏成自己的方法论。我的系统里有一条自动蒸馏管道做这件事:Observer 模块每天观察行为模式,Reflector 模块定期把观察提炼为持久的公理和规则,写回认知框架文件。经过持续积累,我现在有 45 条决策公理,在涉及决策的任务中被自动加载。
理解了这一点,后面介绍的语音管线就不只是一个效率工具了。它是这个积累过程的主要输入通道:每天 20 到 40 条语音备忘录,每一条都在为系统提供新的观察数据。
为什么选语音备忘录
录音入口我试过很多方案,最终回到了苹果自带的语音备忘录(Voice Memos)。
原因很简单:它是苹果生态里摩擦最小的录音方式,天生就集成在系统中。iPhone、iPad、Apple Watch、Mac 上都原生可用,录完通过 iCloud 自动同步到 Mac,不需要任何额外配置。在 Apple Watch 上抬腕点一下就能录,在 iPhone 上从控制中心直接启动。生态稳定性经过了十几年验证。
当然可以做一个专用 App 来替代它。但语音备忘录已经是 90 分的方案,为了那 5 分的提升去开发和维护一个 App,投入产出比太低。
这个选择背后的原则是:在已有的优秀方案上构建,把精力留给真正有差异化价值的部分。
架构:从录音到行动
整条管线的数据流:
语音备忘录录音 (10 秒)
↓ iCloud 同步
macOS Voice Memos App
↓ 每 60 秒守护进程扫描
本地转录 (mlx_whisper, Apple Silicon 加速)
↓ 词汇表清洗 + 拼读检测
AI 分类 + 执行 (Claude Code headless)
↓ 信任分级 + 审批路由
邮件通知 → iPhone/iPad
↓ 可选
SSH 继续对话
本地转录
一个 LaunchAgent 守护进程每 60 秒扫描 Voice Memos 的 SQLite 数据库,发现新录音就调用 mlx_whisper 转录。模型是 whisper-large-v3-turbo 的 MLX 格式,跑在 M4 Pro 上速度大约是实时的 5 到 10 倍,成本为零,数据不离开本机。
转录完成后有一步词汇表清洗。我维护了一个个人词汇表(JSON 文件),包含三类修正:常见错别字、拼读识别(录音时说"拼写是 A-B-C"会自动识别)、专有名词上下文(防止同一个人名每天重复确认)。这个词汇表随着使用不断积累,转录精度在持续提升。
六种分类
转录文本送入 Claude,由 AI 完成分类和执行:
| 分类 | 典型输入 | 处理方式 |
|---|---|---|
| action | “帮我查一下 Samsung T9 在 Mac 上兼容性” | 搜索多个来源,交叉验证,输出结论 |
| task | “明天下午三点提醒我给 Fynn 打电话” | 解析时间,创建定时任务,到点自动触发 |
| idea | “我觉得语音管线可以做成开源项目” | 写入 Brain Dump,自动填充 frontmatter |
| curiosity | “火星大气成分是什么” | 直接简洁回答,不做深度调研 |
| log | “今天跑了 5 公里,状态不错” | 概括记录,持久化到月度日志 |
| decision | “批准那篇 Blog 草稿” | 读取待审批队列,执行被阻塞的操作 |
分类只回答"做什么"。另一个正交维度"信任等级"回答"需不需要我批准":T0 全自动做完邮件通知,T1 产出知识条目事后审阅,T2 面向外部的草稿加入审批队列等我语音说"批准",T3 不可逆操作只标记绝不自动执行。
两个维度正交的好处是:同样是 action,搜索天气是 T0,写 Blog 草稿是 T2。独立演进,不需要为每种组合写特殊逻辑。
上下文注入
这是整个系统里 ROI 最高的部分。每次 AI 处理一条录音时,会注入六层上下文:
- 用户身份(从认知画像文件提取核心信息)
- 沟通风格偏好(约束 AI 的表达方式)
- 概念词典(我和 AI 之间的"私有语言",压缩沟通成本)
- 专有名词上下文(词汇表里的人名和项目名)
- 当天 TODO(知道我今天在做什么)
- 最近 24 小时的录音摘要(短期思维流连续性)
我说"Resonance 那个 CJK bug 查了吗",AI 知道 Resonance 是我的开源项目,CJK bug 是指 token 计数对中文字符的处理问题,这个任务在我今天的 TODO 里。它直接去查进度,而不是回问"请问 Resonance 是什么"。
同样的模型,有上下文和没上下文,输出质量是两个世界。
邮件通知
每条录音处理完毕后,发一封 HTML 邮件到我的 Gmail。邮件里包含分类标签、信任等级、AI 的执行结果、清洗过的转录原文,以及一行 SSH 命令。
为什么选邮件?它是唯一能在 iPhone/iPad 上无需任何额外 App 就能即时推送的渠道。Gmail App 推送延迟在秒级。先跑起来,不需要搭 Telegram Bot 或 WebSocket。
定时任务:从被动到主动
管线最初是被动的:你录一条,它处理一条。task 分类把它推向了主动服务。
“帮我每周日看一下 Karpathy 的推特,有新内容就总结发给我。”
这句话通过管线变成一个 LaunchAgent plist 文件,每周日上午 10 点触发 Claude 执行检查,结果通过邮件送达。
日终汇报也是主动服务。每天 23:00,定时任务自动聚合当天所有数据源(语音备忘录、Git commits、Brain Dumps、知识库变更、竞品日报),生成结构化日报,发邮件,然后从当天活动中蒸馏出次日的 TODO 列表。第二天早上醒来,邮箱里有昨天的复盘和今天的建议。
继续对话:iPhone/iPad 上的 SSH 远程操作
我花了大量时间在 iPhone 和 iPad 上亲身测试远程终端方案。这段经历值得详细说一下,因为坑确实不少。
最终方案
iPad/iPhone 上安装 Termius(SSH 客户端),直连 Mac 的 SSH 服务。每封处理结果邮件底部都有一行命令(~/s 113230-2c811548),在 Termius 里粘贴执行,进入上下文完整的 Claude Code 对话。
踩过的坑
Mosh 方案(失败)。 最初用 Mosh 替代 SSH,因为 Mosh 支持断线自动恢复,理论上移动场景更友好。实际使用发现 Mosh 对中文字符的渲染有严重 bug(GitHub Issue #1041,已经 7 年没修)。中文字符残缺、错位,Claude Code 的 TUI 界面在 Mosh 下基本不可用。
tmux 方案(部分失败)。 想用 tmux 做 session 持久化,但在 Termius SSH 下遇到 PTY 分配问题,tmux new-session 反复报错 “open terminal failed: not a terminal”。花了两天排查,最终发现是 Termius 和 tmux 版本的 PTY 兼容性问题。
最终选择:纯 SSH,不加 Mosh,不加 tmux。 原因是 Mosh 的断线恢复功能和 tmux 的 session 持久化本质上是重叠的,而 Mosh 的 CJK 问题是架构级缺陷(mosh 使用自己的 wcwidth 实现,和终端模拟器不一致),短期内无法修复。纯 SSH 的断线问题用"命令行恢复对话"的方式解决:断了就重新粘贴命令,Claude Code 会自动加载之前的执行结果。
这个经历的教训是:遇到终端渲染问题,先画完整链路图(Termius → Mosh → tmux → Claude Code TUI),识别冗余层,砍掉比调参更有效。链路越长,最弱环节越容易成为瓶颈。
成本:$200/月撑起整条管线
这可能是很多人最关心的问题。整条管线的运行成本:
- Claude Max 订阅:$200/月
- 本地转录:$0(mlx_whisper 跑在 Mac 上)
- 邮件发送:$0(Gmail API 免费额度足够)
- 基础设施:一台 Mac + 任意苹果设备 + 现有的 iCloud/Gmail
- 需要安装的软件:mlx_whisper、Claude CLI
关键在于:所有 AI 处理都通过 Claude Code 的 headless 模式(claude -p)执行,走的是 Max 订阅额度,不消耗 API token。Max 订阅给了几乎无限的使用空间,日均 20 到 40 条录音完全撑得住。
Claude Code headless 模式的稳定性
说实话,claude -p 这个非交互模式用于管线自动化,并非 Anthropic 官方推荐的主要用法。经过几个月的实测,它在大多数情况下运行正常,但偶尔会遇到 session 限制或响应超时。
我的判断是:在 3 到 6 个月的窗口内,这个方案可以正常使用。如果之后 Anthropic 调整了 Max 订阅的使用策略,或者 headless 模式出现稳定性问题,可以切换到 API 直连或者其他编码工具的类似模式。目前来说,$200/月的 Max 订阅就是最优解。
瓶颈迁移:信任分级的由来
管线搭建完之后,处理流程是这样的:
灵感产生 → 语音捕获(~10s) → AI 处理(~3min) → 人类审批(???) → 执行完成
前三个环节的延迟加起来不到四分钟。但"人类审批"这个环节是无界的。我可能六小时后才看邮件,可能第二天才回复。
语音管线解决了"想法捕获"的瓶颈,约束立刻迁移到了"人类审批带宽"。这就是约束理论(TOC)在个人系统中的体现:优化一个环节,瓶颈会转移到下一个最弱的环节。
信任分级(T0 到 T3)是对这个瓶颈的工程化回应。让 80% 的操作(T0)跳过审批,把人类带宽留给真正需要判断的 20%(T2/T3)。
更进一步,decision 分类实现了"语音审批"。对着语音备忘录说"批准那篇 Blog 草稿",管线自动匹配待审批队列里的对应项并执行。从发现问题到修复上线,全程语音完成。
自指性:管线改进管线
这个系统有一个有趣的特性:我用它来改进它自己。
最近通过语音发现 TODO 列表每天都是空的。录了一条"TODO 怎么是空的"。管线处理后,AI 诊断出根因:日终汇报脚本只生成回顾,不生成次日 TODO。它提出了两个方案:机械复制(方案 A)和 AI 蒸馏(方案 B)。我又录了一条"方案 B 听起来不错"。管线识别为 decision 分类,直接创建了蒸馏脚本并集成到日终汇报流程。
这就是"用工作流来改进工作流本身"。使用中遇到的摩擦通过同一条管线被捕获、分析、修复。
系统的精髓
回顾整个系统,核心价值集中在三点:
个性化认知上下文。 认知画像、沟通风格约束、45 条决策公理、概念词典,让每一次 AI 交互都带着你的完整认知上下文。不只是"AI 知道你叫什么",而是"AI 知道你怎么想问题"。
自动定时任务的编排。 LaunchAgent 驱动的定时任务网络:每 60 秒扫描录音、每天 16:00 推荐写作话题、每天 18:00 竞品日报、每天 23:00 日终汇报 + TODO 蒸馏。这些任务在你不使用电脑的时候持续运行,把 AI 从"被动响应"推向"主动服务"。
邮件通知闭环。 邮件是从 AI 系统到人的最短通知路径,无需额外 App,在所有设备上即时可达。加上 SSH 继续对话的能力,形成了"语音输入 → AI 处理 → 邮件通知 → SSH 追问"的完整闭环。
给 Builder 的操作建议
从最小管线开始。 录音 → 转录 → 分类 → 邮件通知。先不要做信任分级、词汇表、上下文注入。先验证"语音输入,邮件输出"这条最短路径能跑通。
选择本地转录。 Whisper 的 MLX 变体在 Apple Silicon 上表现出色。零成本、快速、隐私友好。除非需要说话人分离(多人会议),没有理由用云端。
上下文注入是 ROI 最高的投资。 哪怕只是把你的角色描述和当天 TODO 注入到 prompt 里,AI 输出质量都会有质的飞跃。这比换更贵的模型有效得多。
纯 SSH,不要 Mosh。 如果你打算在 iPad/iPhone 上通过 Termius 远程操作,记住 Mosh 的 CJK 渲染 bug 是架构级的,短期无法修复。纯 SSH + Claude Code 的会话恢复机制就够了。
关注瓶颈迁移。 解决了一个效率问题后,问自己:约束现在迁移到哪里了?信任分级、语音审批这些设计,都是在瓶颈迁移后自然浮现的需求。
站在巨人肩膀上
这套系统的认知框架层并非我从零构建。它基于鸭哥(grapeot)的开源项目 Context Infrastructure,鸭哥在这篇文章里详细阐述了设计理念。框架提供了完整的认知文件结构(SOUL.md 定义 AI 人格、USER.md 定义用户画像、COMMUNICATION.md 约束输出风格)和自动蒸馏管道(Observer/Reflector),我 fork 了他的仓库,填充了属于自己的内容,并把它和语音管线对接起来。
这些模板文件的结构最早源自 Peter Steinberger 的 OpenClaw 项目。OpenClaw 是一个常驻运行的 AI 伴侣框架,提供了实时消息、daemon 自愈、心跳巡检等能力。鸭哥在此基础上提炼出了更通用的认知框架,专注于"让 AI 理解你"这个核心问题。
我做的工作是:在鸭哥的框架基础上,用语音管线解决了数据输入的问题,用定时任务解决了主动服务的问题,用邮件闭环解决了移动场景的问题。认知框架是大脑,语音管线是感官,定时任务是习惯,邮件是神经通路。
这篇文章的素材,就是通过本文描述的语音管线收集的。
如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。
Buy me a coffee