Google 打造 Gemini 3 不是为了聊天——而是为了 World Model

出处: 本文转载自 SETI Park (@seti_park) 发布的 X Article,原文发布于 2026 年 2 月 22 日。

关于作者: SETI Park 是一位韩国专利分析师(Patent Analyst),专注于解读 Tesla、NVIDIA、Google/DeepMind、SpaceX、Anthropic 等科技巨头的专利,擅长从专利文件中提炼技术战略洞察。他在 X 上拥有超过 16,000 名关注者,同时运营 YouTube 频道


TLDR: Google 的专利 US20260030905A1 揭示了 Gemini 3 视觉能力背后的真正目的——不是为了聊天,而是为了构建 World Model。该专利描述了一个 ConGen-Feedback 系统,能够检测图像与文本之间的四类不匹配(物体、属性、动作、空间关系),通过迭代自我纠正循环不断改进,并大规模制造训练数据。这四个维度恰好是模拟物理现实所需的核心能力,而 Gemini 3 的基准测试成绩完美映射了这四个维度。从 2023 年的 SeeTRUE 论文到 2026 年的 Waymo World Model,Google 一直在沿着同一条路线图前进。


cover

2 月 6 日,Waymo 发布了 Waymo World Model——一个基于 Google DeepMind 的 Genie 3 构建的自动驾驶仿真引擎。它能生成车队从未遇到过的驾驶场景:龙卷风、被淹没的十字路口、路上的大象。博客文章中写道:“Genie 3 从多样化视频预训练中获得的强大世界知识,使我们的车辆能够探索车队从未直接观察到的场景。”

这句话——来自视频预训练的世界知识——引向了一个科技媒体大多忽略的问题:

为什么 Google 在组合式视觉(compositional vision)上投入如此之大——不是那种仅仅"看到"图像的能力,而是能理解物体、属性、动作和空间关系的能力?

数字讲述了部分故事。Google 为 Gemini 3 Pro 发布的基准测试表涵盖了七个视觉类别的 25 项以上评估,在每一项上都领先。但基准测试是输出结果,它们告诉你模型能做什么,却不告诉你为什么要这样构建。

Gemini 3 Pro 基准测试表

看看 Google 选择测量什么。“空间”(Spatial)是一个独立类别,配有五个专属基准测试。“屏幕”(Screen)有三个。这些不是泛泛的准确率测试,而是在衡量物理世界模型所需的特定能力。

一项专利——US20260030905A1,2024 年 5 月提交,2026 年 1 月 29 日公开——揭示这条路线图是架构性的,而非渐进式的。

一个不只是给图文匹配度打分的系统。它能解释不匹配发生在哪里以及为什么,通过迭代修正,并大规模生成每种不匹配类型的训练数据。

核心论点:Gemini 3 在组合式视觉上的强大表现,源于一个递归自我纠正引擎——设计目标不是聊天,而是构建 World Model。


不是分数,而是解释

现有指标如 CLIPScore 只产生一个数字。0.7 意味着"大概匹配"。但它们从不告诉你不匹配出现在哪里,或者为什么。专利的表述很直白:基于嵌入的模型如 CLIP"在需要细粒度组合式理解的任务上经常表现不佳"(“often struggle with tasks requiring fine-grained compositional understanding”)[0005]。文本相似度指标"只评估文本相似性,忽略了视觉信息和更深层的语义联系"(“only assess textual similarity, ignoring visual information and deeper semantic connections”)[0035]。

该专利提出了 ConGen-Feedback:一个同时输出文本解释和边界框标注的系统,指出哪里出了问题。

图 1:ConGen-Feedback

图 1 具象化了这个过程。文本描述"一个穿着条纹连体衣的幼儿坐在绿色三轮车上"。图像显示同一个幼儿穿着条纹卫衣。系统检测到这一差异,生成文本解释,并在衣服周围绘制边界框 [0066]。

一个模型,两种输出:什么出了问题(文本)和问题在哪里(视觉)。

“通过使用单一机器学习模型同时生成不匹配的文本描述和视觉描述,系统避免了计算的重复……提高了内存使用效率并降低了推理时间。"——[0061]

学术基础——由同一个 Google Research Israel 团队撰写的 SeeTRUE 论文(NeurIPS 2023)指出,这类模型可用于"过滤训练数据以提升文本到图像模型的训练效果”。

这不是一个评估工具,而是让视觉模型从自身错误中学习的基础设施。


纠正循环

检测过程会反复进行。系统生成文本诊断,然后将其传入第二个模型来修改图像(或文本)。修改后的输出再次进入同一检测系统。

图 2:迭代纠正循环

图 2 展示了完整循环。

文本:“一名警官骑在自行车后座上,望向镜头。”

迭代 1。 “不对。该男子骑的是摩托车后座,不是自行车。“边界框标在摩托车上。图像被重新生成为自行车。

迭代 2。 “不对。警官没有望向镜头,而是看向别处。“边界框标在面部。图像被重新生成为警官面向镜头。

迭代 3。 “正确。“图像现在与描述匹配。

专利描述了处理多个同时存在的差异:“源文本可能描述的是一栋蓝色房子,但生成的图像中可能是一栋红色房子。或者源文本描述了一个有猫的场景,但生成的图像中却出现了一条狗。"(“the source text string might describe an image having a blue house, but the generated image may include a red house. Or a source text string may describe a scene involving a cat, but the generated image may include a dog instead.")[0004]

这是一个迭代式的奖励与纠正循环。模型不只是识别失败模式,它修复问题并重新检查。每个循环都在为训练数据添砖加瓦。


四种不匹配 = 物理现实的语法

不匹配的分类体系并非随意设定。专利定义了四个类别 [0045]:

物体(Object)。 “猫"对"狗”。场景正确,实体错误。

属性(Attribute)。 “蓝色的猫"对"白色的猫”。物体正确,属性错误。

动作(Action)。 “跳跃"对"站立”。物体和属性正确,行为错误。

空间关系(Spatial Relation)。 “跳过栅栏"对"在栅栏旁边跳”。一切正确,唯独相对位置错误。

这四个维度——存在什么、看起来像什么、在做什么、在哪里——恰恰是 World Model 模拟物理现实所需的核心能力。而 Google 的基准测试套件直接映射了这四个维度。

MMMU-Pro(81%)测试模型能否在复杂视觉场景中推理物体的属性和关系。Video-MMMU(87.6%)测试模型能否追踪动作和状态随时间的变化。空间类别深入到五个基准测试,精确对应专利第四种不匹配类型的要求:RefSpatial 衡量多步空间推理能力(65.5%,几乎是 Gemini 2.5 Pro 的 33.6% 的两倍)。MindCube 衡量从有限视角进行空间心智建模的能力(77.7% 对 GPT-5.1 的 61.7%)。

专利训练模型检测四种物理不匹配。Google 构建了一套基准测试来精确衡量这四个维度。结果不言自明。


训练数据工厂

该专利通过 TV-Feedback 流水线大规模制造这些不匹配。对于每一对匹配的图文组合,它在所有四个类别上生成负样本。一个正向描述如"一只猫躺在蓝色垫子上"会产生变体:“一只狗躺在蓝色垫子上”(物体)、“一只猫躺在红色垫子上”(属性)、“一只猫坐在蓝色垫子上”(动作)、“一只猫躺在蓝色垫子下面”(空间)。

一个 NLI 模型负责质量过滤:保留矛盾正确率(CC)高于 0.25 的样本,以及达到最低蕴含精度的样本。系统只保留那些足够困难、具有训练价值的不匹配。

图 3:TV-Feedback 数据集

图 3 展示了成果:来自六个数据集(PickaPic、ImageReward、COCO、Flickr30k、DOCCI、SVO-Probes)的训练对,每种不匹配类型都配有解释和边界框。

一座无限规模地生产物理现实"错误版本"的工厂,并教会模型检测和纠正这些错误。

该专利还引入了 VQ²,一种将对齐度分解为原子化问答对的评分方法。系统不再给出单一分数,而是生成 10-20 个关于图像特定方面的二元问题(“有没有猫?"、“垫子是蓝色的吗?"、“猫是躺着的吗?"),减少幻觉并实现细粒度调试。

专利明确点名了目标模型:“示例 VLM 包括 PaLI 和 Gemini 模型家族”(“Example VLMs include the PaLI and Gemini model families”)[0036]。不是某个特定版本,而是整个模型家族


时间线

2023 年。 SeeTRUE(NeurIPS 2023)由 Google Research Israel 团队建立图文对齐评估体系。

2024 年。 同一团队发表 ConGen-Feedback(ECCV 2024),提出递归自我纠正系统。Google 提交专利(优先权日 2024 年 5 月 17 日),涵盖检测系统、合成数据流水线、迭代纠正循环和 VQ² 评分方法。

2025 年 5 月。 在 Google I/O 上,Demis Hassabis 宣布:“我们正在将 Gemini 扩展为一个 World Model,能够制定计划并通过模拟世界的各个方面来想象新的体验。”

2025 年 8 月。 Genie 3 发布。DeepMind 称其为"World Model 的新前沿”。研究人员表示:“我们认为 World Model 是通往 AGI 的关键,尤其是对于具身智能体。”

2025 年 11 月。 Gemini 3 Pro 亮相。Google 发布了一份涵盖七个视觉类别、25 项以上评估的基准测试表,全部领先。与竞争对手差距最大的出现在空间和屏幕类别——最依赖组合式推理的两个类别。

2026 年 1 月。 Google 在 Gemini 3 Flash 中推出 Agentic Vision:一个"思考-行动-观察”(Think-Act-Observe)循环,模型先规划视觉分析策略,操控图像(缩放、裁剪、增强),然后重新检查结果。这种"检测 → 操控 → 再检测"的结构与专利的迭代纠正循环如出一辙。同月,专利正式公开。

2026 年 2 月。 Waymo World Model 基于 Genie 3 发布,将 2D 视频理解转化为多传感器 3D 输出,用于自动驾驶仿真。该系统生成"车队从未直接观察到的场景”。


专利揭示了什么

每家 AI 公司都在提升视觉准确度。但这项专利揭示了不同的东西:递归自我改进的基础设施。一个能检测不匹配发生在哪里以及为什么的系统,能在物理理解的四个维度上生成无限量的训练数据,然后通过迭代纠正反哺更强的模型。

Gemini 3 在组合式视觉上的优势不是终点,而是通往更远目标的一个检查站——能够建模、预测和模拟物理世界的 AI。

专利痕迹表明,这从一开始就是计划的一部分。


Sources

  • US 2026/0030905 A1, “Vision-Language-Model-Based System for Assessing the Consistency Between Images and Textual Descriptions,” filed May 2024, published January 29, 2026
  • Yarom et al., “What You See is What You Read? Improving Text-Image Alignment Evaluation,” NeurIPS 2023
  • Bitan et al., “Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment,” ECCV 2024
  • Google, “Gemini 3 Pro: the frontier of vision AI,” Google Blog, 2025
  • Hassabis, “Google I/O 2025: Gemini as a universal AI assistant,” Google Blog, May 20, 2025
  • Google DeepMind, “Genie 3: A new frontier for world models,” August 5, 2025
  • Waymo Blog, “The Waymo World Model,” February 6, 2026

如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。

Buy me a coffee