当前位置:首页 > 科技资讯 > 正文

DeepMind新启CoF,视觉推理领域的GPT-3时刻

探索未来,聚焦变革:CoT思维的视频领域新突破。

DeepMind引领创新,提出了帧链CoF(chain-of-frames)的概念。

逐帧视频生成与语言模型中的链式思维相呼应。正如链式思维(CoT)赋予语言模型符号推理能力一样,“帧链”(CoF)使视频模型能够在时间和空间上展开推理。

上述观点源自DeepMind最新发表的Veo 3论文。类比语言模型中的CoT,他们开创性地提出了CoF的概念。

DeepMind新启CoF,视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型 第1张

此外,团队通过一系列测试发现——

以Veo 3为代表的视频模型正在发展通用视觉理解能力,能够零样本解决从“看”到“想”的全链条视觉任务,且进步显著,未来有望成为机器视觉的“通用基础模型”。

简而言之,“Veo 3正迎来视觉推理领域的GPT-3时刻”。

DeepMind新启CoF,视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型 第2张

想要深入理解这一新概念及其深远意义,首先推荐阅读论文原文——

DeepMind首次提出CoF概念

据论文介绍,CoF的提出源于DeepMind团队的一个疑问:

视频生成模型能否像ChatGPT这类大语言模型(LLM)一样,无需特定任务训练,就能应对各种视觉工作,最终成为“通用视觉基础模型”?

为何追求通用?当前机器视觉领域仍停留在“NLP的老阶段”——

要分割物体就用“Segment Anything”,要检测物体就用YOLO,换个任务就得重新调整或重新训练模型。

DeepMind新启CoF,视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型 第3张

既然现在的视频生成模型和LLM基于相同底层逻辑——用海量数据驱动,那么通用视觉并非遥不可及。

为了验证这一猜想,团队采用了一个非常直接的方法:仅提供提示,不进行特殊训练。通过Google的API,给模型“一张初始图(作为第一帧)+ 一段文字指令”,让模型生成8秒、720p的视频。

这与LLM“用提示替代专属训练”的逻辑一致,旨在验证模型的原生通用能力。

经过一系列测试,团队发现视频模型确实具备通用潜力

具体而言,他们以Veo 3为实验对象,发现其具备四大能力(逐步深入):

第一,无需专门训练,Veo 3就能应对多种经典视觉任务,具备感知能力。

无论是基础任务(如模糊图变清晰),还是复杂任务(如在众多物品中找“蓝色的球”),它都能轻松应对。

DeepMind新启CoF,视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型 第4张

DeepMind新启CoF,视觉推理领域的GPT-3时刻 CoF 通用视觉理解 Veo 3 视频模型 第5张

...