DeepMind新启CoF，视觉推理领域的GPT-3时刻

探索未来，聚焦变革：CoT思维的视频领域新突破。

DeepMind引领创新，提出了帧链CoF（chain-of-frames）的概念。

逐帧视频生成与语言模型中的链式思维相呼应。正如链式思维（CoT）赋予语言模型符号推理能力一样，“帧链”（CoF）使视频模型能够在时间和空间上展开推理。

上述观点源自DeepMind最新发表的Veo 3论文。类比语言模型中的CoT，他们开创性地提出了CoF的概念。

DeepMind新启CoF，视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型第1张

此外，团队通过一系列测试发现——

以Veo 3为代表的视频模型正在发展通用视觉理解能力，能够零样本解决从“看”到“想”的全链条视觉任务，且进步显著，未来有望成为机器视觉的“通用基础模型”。

简而言之，“Veo 3正迎来视觉推理领域的GPT-3时刻”。

DeepMind新启CoF，视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型第2张

想要深入理解这一新概念及其深远意义，首先推荐阅读论文原文——

DeepMind首次提出CoF概念

据论文介绍，CoF的提出源于DeepMind团队的一个疑问：

视频生成模型能否像ChatGPT这类大语言模型（LLM）一样，无需特定任务训练，就能应对各种视觉工作，最终成为“通用视觉基础模型”？

为何追求通用？当前机器视觉领域仍停留在“NLP的老阶段”——

要分割物体就用“Segment Anything”，要检测物体就用YOLO，换个任务就得重新调整或重新训练模型。

DeepMind新启CoF，视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型第3张

既然现在的视频生成模型和LLM基于相同底层逻辑——用海量数据驱动，那么通用视觉并非遥不可及。

为了验证这一猜想，团队采用了一个非常直接的方法：仅提供提示，不进行特殊训练。通过Google的API，给模型“一张初始图（作为第一帧）+ 一段文字指令”，让模型生成8秒、720p的视频。

这与LLM“用提示替代专属训练”的逻辑一致，旨在验证模型的原生通用能力。

经过一系列测试，团队发现视频模型确实具备通用潜力。

具体而言，他们以Veo 3为实验对象，发现其具备四大能力（逐步深入）：

第一，无需专门训练，Veo 3就能应对多种经典视觉任务，具备感知能力。

无论是基础任务（如模糊图变清晰），还是复杂任务（如在众多物品中找“蓝色的球”），它都能轻松应对。

DeepMind新启CoF，视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型第4张

DeepMind新启CoF，视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型第5张

...

本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260542057.html