LLM 推理提速全解析:GPT-5.3-Codex 与 Claude Fast Mode 背后的四层加速

TL;DR: OpenAI 和 Anthropic 最近都在推理速度上取得了显著进展。GPT-5.3-Codex 快了约 25%,Claude Opus 4.6 的 Fast Mode 输出速度提升最高 2.5 倍。两家的技术路径本质一致:通过算法(Speculative Decoding)、内核(FlashAttention)、服务层(vLLM/Continuous Batching)和模型架构(MoE/量化)四层协同实现加速。本文拆解这四层机制,并附 10 篇核心论文。


GPT-5.3-Codex 25% vs Claude Fast Mode 2.5x 速度对比

为什么 LLM 突然变快了

如果你最近频繁使用 Claude 或 GPT,可能已经注意到:响应速度明显变快了。

这不是错觉。2026 年初,两大模型厂商几乎同时交出了速度成绩单:

  • OpenAI: GPT-5.3-Codex 比前代快约 25%
  • Anthropic: Claude Opus 4.6 推出 Fast Mode,输出 token 速率(OTPS)提升最高 2.5 倍

有意思的是,两家走的不是同一条产品路线,但底层技术逻辑高度一致。


OpenAI 的做法:基础设施 + 推理栈优化

OpenAI 在 GPT-5.3-Codex 的发布页中直接给出了数字:

“…which is also 25% faster.” – OpenAI - Introducing GPT-5.3-Codex

提速归因于:

“…thanks to improvements in our infrastructure and inference stack…”

这句话说得克制。OpenAI 没有透露具体用了哪些优化技术——是 Speculative Decoding 的某个变体,还是内核层的改进,还是服务层的调度升级,官方没有公开细节。

从 System Card 来看,这次提速更像是一次全栈工程优化,而非单一算法突破。


Anthropic 的做法:同一模型,不同推理配置

Anthropic 的策略更透明一些。Fast Mode 不是一个新模型,而是 Opus 4.6 的加速推理配置:

“Fast mode runs the same model with a faster inference configuration.” – Anthropic Docs - Fast mode

关键点:

“There is no change to intelligence or capabilities.”

也就是说,模型权重不变,能力不变,只是推理过程跑得更快。官方数据是输出 token 速率提升最高 2.5 倍。

这里有个细节值得注意:Fast Mode 主要优化的是输出阶段(OTPS),而非首 token 时间(TTFT)。对于长输出任务(写代码、写文章),提速感知会更明显;对于短回复,差异可能不大。


四层提速原理

抽象来看,LLM 推理的延迟可以拆解为三个指标:

指标含义谁在乎
TTFT首 token 时间对话体验,用户等待感
OTPS输出 token 速率长输出任务的实际吞吐
E2E端到端时长Agent 场景的整体效率

要让这三个指标同时变好,需要在四个层面协同优化。

LLM 推理加速四层架构:算法、内核、服务、模型

第一层:算法 – Speculative Decoding

这是最优雅的一层优化。

传统 LLM 生成是严格串行的:生成一个 token,才能生成下一个。大模型每生成一个 token 都要跑一次完整的前向传播,开销巨大。

Speculative Decoding 的思路是:用一个小模型先快速草拟多个 token,再让大模型一次性校验。如果小模型猜对了(在很多场景下准确率很高),大模型只需要一次前向传播就验证了多个 token,等效于跳过了多个串行步骤。

这个方法的精妙之处在于:输出质量完全不变。校验失败的 token 会被丢弃并重新生成,数学上等价于大模型自己逐个生成。

Speculative Decoding 原理:小模型草拟,大模型一次校验,无损加速

后续的 Medusa 和 EAGLE 系列进一步改进了草拟策略——用多头并行草拟提高接受率,用动态草拟树适应不同上下文,把加速比推得更高。

第二层:内核 – FlashAttention

Attention 计算是 Transformer 的核心,也是最大的性能瓶颈之一。

传统实现中,attention 的中间结果需要反复在 GPU 的高速计算单元(SRAM)和大容量显存(HBM)之间搬运。HBM 的带宽远低于计算速度,形成了严重的 IO 瓶颈。

FlashAttention 的解法是:重新组织计算顺序,让 attention 尽可能在 SRAM 内完成,减少 HBM 往返次数。这是一个纯工程优化——算法逻辑不变,结果精确一致,但速度大幅提升。

FlashAttention-2 进一步优化了并行划分策略,在长序列场景下效果更显著。

第三层:服务 – vLLM 与 Continuous Batching

前两层解决的是「单次推理怎么更快」,这一层解决的是「同时服务一万个用户怎么更快」。

核心问题是 KV Cache 管理。每个用户的对话都需要维护一份 KV Cache(键值缓存),长对话的 KV Cache 可以占用数 GB 显存。传统做法是预分配固定大小的显存块,浪费严重。

vLLM 引入了 PagedAttention:像操作系统管理内存一样管理 KV Cache,按需分页、动态回收。这把显存利用率提升了数倍,直接转化为更高的并发能力。

另一个关键技术是 Continuous Batching(连续批处理)。传统批处理要等一批请求全部完成才开始下一批;Continuous Batching 允许请求随时加入和退出批次,大幅减少 GPU 空转时间。

第四层:模型架构 – MoE 与量化

最后一层是在模型本身上做文章。

MoE(Mixture of Experts) 的核心思想是:模型有很多「专家」子网络,但每次只激活其中少数几个。总参数量可以很大(保证能力),但每个 token 的实际计算量远小于全参数模型。Switch Transformer 是这条路线的代表。

量化(如 AWQ)则是用更低精度的数值(比如 4-bit 代替 16-bit)来存储模型权重。这直接减少了显存占用和带宽需求,代价是极小的精度损失——在多数任务上几乎感知不到。


这对开发者意味着什么

四层加速不是学术概念,它们已经在生产环境中落地,直接影响你的使用体验:

  1. Agent 场景受益最大。Agent 需要多轮调用 LLM,每次调用的延迟降低都会累积。一个 10 步的 Agent 工作流,每步快 2 倍,整体就快了 20 倍。

  2. Fast Mode / 高速模式将成为标配。当推理加速能做到「能力不变、速度翻倍」,没有理由不默认开启。预计更多厂商会跟进类似产品。

  3. 成本与速度在收敛。更快的推理 = 更短的 GPU 占用时间 = 更低的成本。这四层优化中的每一层都同时降低了延迟和成本。

  4. 选型时关注 OTPS 而非只看基准分数。模型能力相近时,推理速度将成为关键的差异化指标。


延伸阅读

以下是支撑本文技术分析的核心论文,按层分类:

算法层 – Speculative Decoding 系列

内核层 – FlashAttention 系列

服务层 – 推理系统

模型层 – 架构与量化


数据来源:OpenAI GPT-5.3-Codex 发布页Anthropic Fast Mode 文档

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee