有视频的做模型,有模型的找视频:AI 多模态竞争的底层逻辑
最近和 AI 聊到一个有意思的观察:
中国两大短视频平台——抖音(字节跳动)和快手——分别搞出了全中国最强、在全球都有竞争力的视频生成模型。而海外最能打的图片和视频模型 Nano Banana 和 Veo,由拥有 YouTube 的 Google 推出。
这里面隐藏着一个规律:拥有视频平台的公司,做出了最好的视频模型。
但如果这个公式成立,拥有 Instagram 的 Meta 理应在视频和图片生成领域有所建树。现实却是,Meta 似乎并没有拿出能打的多模态生成模型。而没有任何视频平台的 MiniMax,其 Hailuo 视频模型却在海外打出了一片天。
这个"公式"到底对不对?让我们逐一拆解。
有平台,有数据,有模型
字节跳动 & 快手:短视频帝国的 AI 红利
字节和快手做视频模型,属于"老天爷赏饭吃"。
抖音每天有数亿条短视频上传,快手也不遑多让。这意味着近乎无限的训练数据,而且这些数据自带天然标注——用户的点赞、完播率、分享行为本身就是最好的质量筛选器。哪些画面好看、哪些转场流畅、哪些内容吸引人,平台比任何人都清楚。
可灵(字节)和快手可灵能做出全球一流的视频生成模型,本质上是数据壁垒在起作用。
Google:被骂醒的巨人
Google 的情况类似但又不同。YouTube 是全球最大的视频库,每分钟有超过 500 小时的视频上传。更关键的是,YouTube 的视频不仅有画面,还有字幕、标签、评论、时间戳——这些都是珍贵的多模态对齐数据。
Google 之前一直被骂"起了个大早赶了个晚集",但问题从来不是能力,而是组织。Google Brain 和 DeepMind 内耗多年,产品和研究脱节严重。现在 DeepMind 完成整合,Gemini 3 以及 Nano Banana、Veo 的推出,证明了当 Google 认真起来,那些积累多年的数据资源终于转化成了模型优势。
一直被骂,一直出大招——Google 这场翻身仗确实漂亮。
有平台,但没做出来
Meta:不是不能,是不想
Meta 拥有 Instagram 和 Facebook,坐拥全球最大的图片和视频社交数据。按理说,Meta 应该是多模态生成领域的王者。
但 Meta 的 AI 战略一直是两条线:开源语言模型(Llama)+ 广告推荐系统。
为什么不做生成模型?因为 Meta 的商业模式不需要。Meta 需要的是理解内容来卖广告,而不是生成内容。推荐算法才是 Meta 的核心战场,Llama 是为了不被 OpenAI 和 Google 卡脖子的防御性投资。
至于 Llama 本身,说它"泯然众人"有点过了。Llama 4 的 Scout 和 Maverick 仍有竞争力,只是不再有"遥遥领先"的光环了——当所有人都在做开源大模型时,先发优势自然被稀释。
没平台,也做出来了
MiniMax / Hailuo:最值得研究的案例
MiniMax 的 Hailuo 视频模型在海外有相当的竞争力,但他们本身并没有视频平台。这是怎么做到的?
大概率靠几条路:
- 公开数据集:WebVid、Panda-70M 等学术数据集提供了基础训练素材
- 公开视频爬取:YouTube、Vimeo 等平台的公开内容(版权灰色地带)
- 合成数据与数据增强:用少量高质量数据做扩增,这是数据匮乏者的常规武器
- 授权采购:从版权方购买数据,成本高但合规
- 架构创新弥补数据劣势:MiniMax 的 CTO 团队出自商汤,在视频理解领域有深厚积累。更好的模型架构和训练技巧,有时可以部分弥补数据量的不足
但长远来看,没有自有数据源的公司会越来越吃力。当模型架构趋于收敛,数据的质量和规模将重新成为决定性因素。
OpenAI:有人有理念,缺数据
OpenAI 是另一个有趣的案例。他们的护城河从来不是数据,而是先发优势、品牌效应和人才密度。
GPT 初期确实靠"胆子大"——敢无视版权大规模抓取互联网数据。但这个优势现在每家都有了。到了视频领域,Sora 憋了很久效果一般,恰恰说明没有自有视频平台是实实在在的短板。
OpenAI 能不能笑到最后?坦率说,不好判断。他们在文本领域的领先正在被侵蚀,视频领域又没有数据优势。但 AI 竞争的变数太多,技术突破可以在一夜之间改变格局。
所以,这个"公式"成立吗?
大体成立,但不绝对。
拥有视频平台 = 拥有海量高质量训练数据 = 视频模型的天然优势。字节、快手、Google 都验证了这一点。
但公式有两个重要的修正项:
有数据不等于会用。Meta 有数据但战略上不优先做生成模型。Google 有数据但组织内耗耽误了好几年。数据是必要条件,不是充分条件。
没数据不等于做不出。MiniMax 证明了通过架构创新、公开数据和合成数据的组合,中小玩家也能在特定领域打出竞争力。只是长期可持续性存疑。
最终的竞争格局可能是这样的:
有平台的巨头(字节、Google)凭借持续的数据供给保持长期优势;没平台的创新者(MiniMax、OpenAI)靠技术突破和商业策略在某些窗口期获得竞争力,但需要不断奔跑才能维持位置。
而 Meta 这样"有资源但不做"的玩家,随时可能改变战略杀回来——毕竟数据还在那里,只是他们选择了不同的赛道。
本文整理自一次关于 AI 视频模型竞争格局的讨论,观点仅代表个人思考。
如果这篇文章对你有帮助,欢迎请我喝杯咖啡,支持我继续创作更多内容。
Buy me a coffee