我构建了一套 AI 个人进化系统：语音驱动、自动蒸馏、越用越懂你

TL;DR 我搭了一套基于苹果自带语音备忘录（Voice Memos）的 AI 个人系统，日均处理 20 到 40 条录音。核心不是语音转文字，而是一条完整的管线：录音 → 本地转录 → AI 分类执行 → 信任分级 → 邮件通知 → SSH 继续对话。整套系统运行在 $200/月的 Claude Max 订阅上，AI 会随使用自动积累你的行为模式、决策偏好和方法论。用得越久，越懂你。

AI 正在变得更便宜、更聪明。但有一个问题始终没被解决：它不认识你。

你打开 ChatGPT、Claude、Gemini，每次都是一个全新的对话。AI 不知道你在做什么项目、你的技术栈是什么、你昨天做了什么决策、你讨厌什么样的写作风格。它能给你的，只是一个面向所有人的平均水平回答。

我过去几个月一直在解决这个问题。最终搭建出来的，是一套围绕个人认知持续进化的系统：AI 在日常使用中不断积累关于我的上下文，定期把观察蒸馏成方法论规则，然后在后续交互中自动应用这些规则。每一次对话都在让下一次对话变得更好。

这套系统的日常入口是苹果自带的语音备忘录。iPhone、iPad、Apple Watch、Mac，任何一台苹果设备都可以录入。跑步时闪过的灵感、做饭时想到的待办、散步时冒出的技术方案，打开语音备忘录说一句话就够了。AI 在后台自动处理，三分钟后结果通过邮件送达。电脑前的深度工作和移动场景的轻量交互，两条路径并行。

下面我完整拆解这套系统的每一层。

为什么 AI 只会给你"正确的废话"

LLM 训练的本质是 Next Token Prediction：输出概率最高的下一个 token。概率最高意味着大多数人会同意，也就是共识。RLHF 在此之上又叠了一层：安全对齐惩罚有争议的、强观点的输出，奖励平衡、全面、不偏不倚的回答。两层机制叠加，LLM 的默认行为就是回归均值。

这意味着一件事：AI 模型升级解决的是信息不对称（你不知道的事情现在知道了），但解决不了认知不对称。面对同一份行业报告，二十年老兵和刚入行的新人看到的是完全不同的东西。老兵有一套从反复试错中构建的判断系统，知道哪些数据是噪音，哪些异常信号暗示趋势。新人没有这个过滤器，就算给他十倍长度的报告也做不出同样质量的判断。AI 的默认输出，本质上就是那个新人的水平：什么都对，但没有判断。

换一个角度理解：AI 已经从 CPU-bound 转向了 Memory-bound。 模型智能越过一个阈值后，继续升级模型带来的边际收益递减。决定输出本质的不再是模型智能，而是上下文。就像计算机发展中 CPU 快到一定程度后，瓶颈转移到了内存架构。每一次模型升级让智能更便宜、人人可得。而你的个人上下文只属于你，模型升级不会让它贬值。持续投资一个贬值的维度（模型智能）回报递减；投资一个不贬值的维度（个人上下文）才有复利。

所以，现阶段使用 AI 能带来最大复利效应的行为，是有意识地积累自己与 AI 的所有互动数据，并定期将这些数据蒸馏成自己的方法论。我的系统里有一条自动蒸馏管道做这件事：Observer 模块每天观察行为模式，Reflector 模块定期把观察提炼为持久的公理和规则，写回认知框架文件。经过持续积累，我现在有 45 条决策公理，在涉及决策的任务中被自动加载。

理解了这一点，后面介绍的语音管线就不只是一个效率工具了。它是这个积累过程的主要输入通道：每天 20 到 40 条语音备忘录，每一条都在为系统提供新的观察数据。

为什么选语音备忘录

录音入口我试过很多方案，最终回到了苹果自带的语音备忘录（Voice Memos）。

原因很简单：它是苹果生态里摩擦最小的录音方式，天生就集成在系统中。iPhone、iPad、Apple Watch、Mac 上都原生可用，录完通过 iCloud 自动同步到 Mac，不需要任何额外配置。在 Apple Watch 上抬腕点一下就能录，在 iPhone 上从控制中心直接启动。生态稳定性经过了十几年验证。

当然可以做一个专用 App 来替代它。但语音备忘录已经是 90 分的方案，为了那 5 分的提升去开发和维护一个 App，投入产出比太低。

这个选择背后的原则是：在已有的优秀方案上构建，把精力留给真正有差异化价值的部分。

架构：从录音到行动

整条管线的数据流：

语音备忘录录音 (10 秒)
  ↓ iCloud 同步
macOS Voice Memos App
  ↓ 每 60 秒守护进程扫描
本地转录 (mlx_whisper, Apple Silicon 加速)
  ↓ 词汇表清洗 + 拼读检测
AI 分类 + 执行 (Claude Code headless)
  ↓ 信任分级 + 审批路由
邮件通知 → iPhone/iPad
  ↓ 可选
SSH 继续对话

本地转录

一个 LaunchAgent 守护进程每 60 秒扫描 Voice Memos 的 SQLite 数据库，发现新录音就调用 mlx_whisper 转录。模型是 whisper-large-v3-turbo 的 MLX 格式，跑在 M4 Pro 上速度大约是实时的 5 到 10 倍，成本为零，数据不离开本机。

转录完成后有一步词汇表清洗。我维护了一个个人词汇表（JSON 文件），包含三类修正：常见错别字、拼读识别（录音时说"拼写是 A-B-C"会自动识别）、专有名词上下文（防止同一个人名每天重复确认）。这个词汇表随着使用不断积累，转录精度在持续提升。

六种分类

转录文本送入 Claude，由 AI 完成分类和执行：

分类	典型输入	处理方式
action	“帮我查一下 Samsung T9 在 Mac 上兼容性”	搜索多个来源，交叉验证，输出结论
task	“明天下午三点提醒我给 Fynn 打电话”	解析时间，创建定时任务，到点自动触发
idea	“我觉得语音管线可以做成开源项目”	写入 Brain Dump，自动填充 frontmatter
curiosity	“火星大气成分是什么”	直接简洁回答，不做深度调研
log	“今天跑了 5 公里，状态不错”	概括记录，持久化到月度日志
decision	“批准那篇 Blog 草稿”	读取待审批队列，执行被阻塞的操作

分类只回答"做什么"。另一个正交维度"信任等级"回答"需不需要我批准"：T0 全自动做完邮件通知，T1 产出知识条目事后审阅，T2 面向外部的草稿加入审批队列等我语音说"批准"，T3 不可逆操作只标记绝不自动执行。

两个维度正交的好处是：同样是 action，搜索天气是 T0，写 Blog 草稿是 T2。独立演进，不需要为每种组合写特殊逻辑。

上下文注入

这是整个系统里 ROI 最高的部分。每次 AI 处理一条录音时，会注入六层上下文：

用户身份（从认知画像文件提取核心信息）
沟通风格偏好（约束 AI 的表达方式）
概念词典（我和 AI 之间的"私有语言"，压缩沟通成本）
专有名词上下文（词汇表里的人名和项目名）
当天 TODO（知道我今天在做什么）
最近 24 小时的录音摘要（短期思维流连续性）

我说"Resonance 那个 CJK bug 查了吗"，AI 知道 Resonance 是我的开源项目，CJK bug 是指 token 计数对中文字符的处理问题，这个任务在我今天的 TODO 里。它直接去查进度，而不是回问"请问 Resonance 是什么"。

同样的模型，有上下文和没上下文，输出质量是两个世界。

邮件通知

每条录音处理完毕后，发一封 HTML 邮件到我的 Gmail。邮件里包含分类标签、信任等级、AI 的执行结果、清洗过的转录原文，以及一行 SSH 命令。

为什么选邮件？它是唯一能在 iPhone/iPad 上无需任何额外 App 就能即时推送的渠道。Gmail App 推送延迟在秒级。先跑起来，不需要搭 Telegram Bot 或 WebSocket。

定时任务：从被动到主动

管线最初是被动的：你录一条，它处理一条。task 分类把它推向了主动服务。

“帮我每周日看一下 Karpathy 的推特，有新内容就总结发给我。”

这句话通过管线变成一个 LaunchAgent plist 文件，每周日上午 10 点触发 Claude 执行检查，结果通过邮件送达。

日终汇报也是主动服务。每天 23:00，定时任务自动聚合当天所有数据源（语音备忘录、Git commits、Brain Dumps、知识库变更、竞品日报），生成结构化日报，发邮件，然后从当天活动中蒸馏出次日的 TODO 列表。第二天早上醒来，邮箱里有昨天的复盘和今天的建议。

继续对话：iPhone/iPad 上的 SSH 远程操作

我花了大量时间在 iPhone 和 iPad 上亲身测试远程终端方案。这段经历值得详细说一下，因为坑确实不少。

最终方案

iPad/iPhone 上安装 Termius（SSH 客户端），直连 Mac 的 SSH 服务。每封处理结果邮件底部都有一行命令（~/s 113230-2c811548），在 Termius 里粘贴执行，进入上下文完整的 Claude Code 对话。

踩过的坑

Mosh 方案（失败）。 最初用 Mosh 替代 SSH，因为 Mosh 支持断线自动恢复，理论上移动场景更友好。实际使用发现 Mosh 对中文字符的渲染有严重 bug（GitHub Issue #1041，已经 7 年没修）。中文字符残缺、错位，Claude Code 的 TUI 界面在 Mosh 下基本不可用。

tmux 方案（部分失败）。 想用 tmux 做 session 持久化，但在 Termius SSH 下遇到 PTY 分配问题，tmux new-session 反复报错 “open terminal failed: not a terminal”。花了两天排查，最终发现是 Termius 和 tmux 版本的 PTY 兼容性问题。

最终选择：纯 SSH，不加 Mosh，不加 tmux。 原因是 Mosh 的断线恢复功能和 tmux 的 session 持久化本质上是重叠的，而 Mosh 的 CJK 问题是架构级缺陷（mosh 使用自己的 wcwidth 实现，和终端模拟器不一致），短期内无法修复。纯 SSH 的断线问题用"命令行恢复对话"的方式解决：断了就重新粘贴命令，Claude Code 会自动加载之前的执行结果。

这个经历的教训是：遇到终端渲染问题，先画完整链路图（Termius → Mosh → tmux → Claude Code TUI），识别冗余层，砍掉比调参更有效。链路越长，最弱环节越容易成为瓶颈。

成本：$200/月撑起整条管线

这可能是很多人最关心的问题。整条管线的运行成本：

Claude Max 订阅：$200/月
本地转录：$0（mlx_whisper 跑在 Mac 上）
邮件发送：$0（Gmail API 免费额度足够）
基础设施：一台 Mac + 任意苹果设备 + 现有的 iCloud/Gmail
需要安装的软件：mlx_whisper、Claude CLI

关键在于：所有 AI 处理都通过 Claude Code 的 headless 模式（claude -p）执行，走的是 Max 订阅额度，不消耗 API token。Max 订阅给了几乎无限的使用空间，日均 20 到 40 条录音完全撑得住。

Claude Code headless 模式的稳定性

说实话，claude -p 这个非交互模式用于管线自动化，并非 Anthropic 官方推荐的主要用法。经过几个月的实测，它在大多数情况下运行正常，但偶尔会遇到 session 限制或响应超时。

我的判断是：在 3 到 6 个月的窗口内，这个方案可以正常使用。如果之后 Anthropic 调整了 Max 订阅的使用策略，或者 headless 模式出现稳定性问题，可以切换到 API 直连或者其他编码工具的类似模式。目前来说，$200/月的 Max 订阅就是最优解。

瓶颈迁移：信任分级的由来

管线搭建完之后，处理流程是这样的：

灵感产生 → 语音捕获(~10s) → AI 处理(~3min) → 人类审批(???) → 执行完成

前三个环节的延迟加起来不到四分钟。但"人类审批"这个环节是无界的。我可能六小时后才看邮件，可能第二天才回复。

语音管线解决了"想法捕获"的瓶颈，约束立刻迁移到了"人类审批带宽"。这就是约束理论（TOC）在个人系统中的体现：优化一个环节，瓶颈会转移到下一个最弱的环节。

信任分级（T0 到 T3）是对这个瓶颈的工程化回应。让 80% 的操作（T0）跳过审批，把人类带宽留给真正需要判断的 20%（T2/T3）。

更进一步，decision 分类实现了"语音审批"。对着语音备忘录说"批准那篇 Blog 草稿"，管线自动匹配待审批队列里的对应项并执行。从发现问题到修复上线，全程语音完成。

自指性：管线改进管线

这个系统有一个有趣的特性：我用它来改进它自己。

最近通过语音发现 TODO 列表每天都是空的。录了一条"TODO 怎么是空的"。管线处理后，AI 诊断出根因：日终汇报脚本只生成回顾，不生成次日 TODO。它提出了两个方案：机械复制（方案 A）和 AI 蒸馏（方案 B）。我又录了一条"方案 B 听起来不错"。管线识别为 decision 分类，直接创建了蒸馏脚本并集成到日终汇报流程。

这就是"用工作流来改进工作流本身"。使用中遇到的摩擦通过同一条管线被捕获、分析、修复。

系统的精髓

回顾整个系统，核心价值集中在三点：

个性化认知上下文。 认知画像、沟通风格约束、45 条决策公理、概念词典，让每一次 AI 交互都带着你的完整认知上下文。不只是"AI 知道你叫什么"，而是"AI 知道你怎么想问题"。

自动定时任务的编排。 LaunchAgent 驱动的定时任务网络：每 60 秒扫描录音、每天 16:00 推荐写作话题、每天 18:00 竞品日报、每天 23:00 日终汇报 + TODO 蒸馏。这些任务在你不使用电脑的时候持续运行，把 AI 从"被动响应"推向"主动服务"。

邮件通知闭环。 邮件是从 AI 系统到人的最短通知路径，无需额外 App，在所有设备上即时可达。加上 SSH 继续对话的能力，形成了"语音输入 → AI 处理 → 邮件通知 → SSH 追问"的完整闭环。

给 Builder 的操作建议

从最小管线开始。 录音 → 转录 → 分类 → 邮件通知。先不要做信任分级、词汇表、上下文注入。先验证"语音输入，邮件输出"这条最短路径能跑通。

选择本地转录。 Whisper 的 MLX 变体在 Apple Silicon 上表现出色。零成本、快速、隐私友好。除非需要说话人分离（多人会议），没有理由用云端。

上下文注入是 ROI 最高的投资。 哪怕只是把你的角色描述和当天 TODO 注入到 prompt 里，AI 输出质量都会有质的飞跃。这比换更贵的模型有效得多。

纯 SSH，不要 Mosh。 如果你打算在 iPad/iPhone 上通过 Termius 远程操作，记住 Mosh 的 CJK 渲染 bug 是架构级的，短期无法修复。纯 SSH + Claude Code 的会话恢复机制就够了。

关注瓶颈迁移。 解决了一个效率问题后，问自己：约束现在迁移到哪里了？信任分级、语音审批这些设计，都是在瓶颈迁移后自然浮现的需求。

站在巨人肩膀上

这套系统的认知框架层并非我从零构建。它基于鸭哥（grapeot）的开源项目 Context Infrastructure，鸭哥在这篇文章里详细阐述了设计理念。框架提供了完整的认知文件结构（SOUL.md 定义 AI 人格、USER.md 定义用户画像、COMMUNICATION.md 约束输出风格）和自动蒸馏管道（Observer/Reflector），我 fork 了他的仓库，填充了属于自己的内容，并把它和语音管线对接起来。

这些模板文件的结构最早源自 Peter Steinberger 的 OpenClaw 项目。OpenClaw 是一个常驻运行的 AI 伴侣框架，提供了实时消息、daemon 自愈、心跳巡检等能力。鸭哥在此基础上提炼出了更通用的认知框架，专注于"让 AI 理解你"这个核心问题。

我做的工作是：在鸭哥的框架基础上，用语音管线解决了数据输入的问题，用定时任务解决了主动服务的问题，用邮件闭环解决了移动场景的问题。认知框架是大脑，语音管线是感官，定时任务是习惯，邮件是神经通路。

这篇文章的素材，就是通过本文描述的语音管线收集的。

☕ 如果这篇文章对你有帮助，欢迎请我喝杯咖啡，支持我继续创作更多内容。

Buy me a coffee