有视频的做模型，有模型的找视频：AI 多模态竞争的底层逻辑

最近和 AI 聊到一个有意思的观察：

中国两大短视频平台——抖音（字节跳动）和快手——分别搞出了全中国最强、在全球都有竞争力的视频生成模型。而海外最能打的图片和视频模型 Nano Banana 和 Veo，由拥有 YouTube 的 Google 推出。

这里面隐藏着一个规律：拥有视频平台的公司，做出了最好的视频模型。

但如果这个公式成立，拥有 Instagram 的 Meta 理应在视频和图片生成领域有所建树。现实却是，Meta 似乎并没有拿出能打的多模态生成模型。而没有任何视频平台的 MiniMax，其 Hailuo 视频模型却在海外打出了一片天。

这个"公式"到底对不对？让我们逐一拆解。

有平台，有数据，有模型

字节跳动 & 快手：短视频帝国的 AI 红利

字节和快手做视频模型，属于"老天爷赏饭吃"。

抖音每天有数亿条短视频上传，快手也不遑多让。这意味着近乎无限的训练数据，而且这些数据自带天然标注——用户的点赞、完播率、分享行为本身就是最好的质量筛选器。哪些画面好看、哪些转场流畅、哪些内容吸引人，平台比任何人都清楚。

可灵（字节）和快手可灵能做出全球一流的视频生成模型，本质上是数据壁垒在起作用。

Google：被骂醒的巨人

Google 的情况类似但又不同。YouTube 是全球最大的视频库，每分钟有超过 500 小时的视频上传。更关键的是，YouTube 的视频不仅有画面，还有字幕、标签、评论、时间戳——这些都是珍贵的多模态对齐数据。

Google 之前一直被骂"起了个大早赶了个晚集"，但问题从来不是能力，而是组织。Google Brain 和 DeepMind 内耗多年，产品和研究脱节严重。现在 DeepMind 完成整合，Gemini 3 以及 Nano Banana、Veo 的推出，证明了当 Google 认真起来，那些积累多年的数据资源终于转化成了模型优势。

一直被骂，一直出大招——Google 这场翻身仗确实漂亮。

有平台，但没做出来

Meta：不是不能，是不想

Meta 拥有 Instagram 和 Facebook，坐拥全球最大的图片和视频社交数据。按理说，Meta 应该是多模态生成领域的王者。

但 Meta 的 AI 战略一直是两条线：开源语言模型（Llama）+ 广告推荐系统。

为什么不做生成模型？因为 Meta 的商业模式不需要。Meta 需要的是理解内容来卖广告，而不是生成内容。推荐算法才是 Meta 的核心战场，Llama 是为了不被 OpenAI 和 Google 卡脖子的防御性投资。

至于 Llama 本身，说它"泯然众人"有点过了。Llama 4 的 Scout 和 Maverick 仍有竞争力，只是不再有"遥遥领先"的光环了——当所有人都在做开源大模型时，先发优势自然被稀释。

没平台，也做出来了

MiniMax / Hailuo：最值得研究的案例

MiniMax 的 Hailuo 视频模型在海外有相当的竞争力，但他们本身并没有视频平台。这是怎么做到的？

大概率靠几条路：

公开数据集：WebVid、Panda-70M 等学术数据集提供了基础训练素材
公开视频爬取：YouTube、Vimeo 等平台的公开内容（版权灰色地带）
合成数据与数据增强：用少量高质量数据做扩增，这是数据匮乏者的常规武器
授权采购：从版权方购买数据，成本高但合规
架构创新弥补数据劣势：MiniMax 的 CTO 团队出自商汤，在视频理解领域有深厚积累。更好的模型架构和训练技巧，有时可以部分弥补数据量的不足

但长远来看，没有自有数据源的公司会越来越吃力。当模型架构趋于收敛，数据的质量和规模将重新成为决定性因素。

OpenAI：有人有理念，缺数据

OpenAI 是另一个有趣的案例。他们的护城河从来不是数据，而是先发优势、品牌效应和人才密度。

GPT 初期确实靠"胆子大"——敢无视版权大规模抓取互联网数据。但这个优势现在每家都有了。到了视频领域，Sora 憋了很久效果一般，恰恰说明没有自有视频平台是实实在在的短板。

OpenAI 能不能笑到最后？坦率说，不好判断。他们在文本领域的领先正在被侵蚀，视频领域又没有数据优势。但 AI 竞争的变数太多，技术突破可以在一夜之间改变格局。

所以，这个"公式"成立吗？

大体成立，但不绝对。

拥有视频平台 = 拥有海量高质量训练数据 = 视频模型的天然优势。字节、快手、Google 都验证了这一点。

但公式有两个重要的修正项：

有数据不等于会用。Meta 有数据但战略上不优先做生成模型。Google 有数据但组织内耗耽误了好几年。数据是必要条件，不是充分条件。
没数据不等于做不出。MiniMax 证明了通过架构创新、公开数据和合成数据的组合，中小玩家也能在特定领域打出竞争力。只是长期可持续性存疑。

最终的竞争格局可能是这样的：

有平台的巨头（字节、Google）凭借持续的数据供给保持长期优势；没平台的创新者（MiniMax、OpenAI）靠技术突破和商业策略在某些窗口期获得竞争力，但需要不断奔跑才能维持位置。

而 Meta 这样"有资源但不做"的玩家，随时可能改变战略杀回来——毕竟数据还在那里，只是他们选择了不同的赛道。

本文整理自一次关于 AI 视频模型竞争格局的讨论，观点仅代表个人思考。

☕ 如果这篇文章对你有帮助，欢迎请我喝杯咖啡，支持我继续创作更多内容。

Buy me a coffee