探索未来,聚焦变革:CoT思维的视频领域新突破。
DeepMind引领创新,提出了帧链CoF(chain-of-frames)的概念。
逐帧视频生成与语言模型中的链式思维相呼应。正如链式思维(CoT)赋予语言模型符号推理能力一样,“帧链”(CoF)使视频模型能够在时间和空间上展开推理。
上述观点源自DeepMind最新发表的Veo 3论文。类比语言模型中的CoT,他们开创性地提出了CoF的概念。
此外,团队通过一系列测试发现——
以Veo 3为代表的视频模型正在发展通用视觉理解能力,能够零样本解决从“看”到“想”的全链条视觉任务,且进步显著,未来有望成为机器视觉的“通用基础模型”。
简而言之,“Veo 3正迎来视觉推理领域的GPT-3时刻”。
想要深入理解这一新概念及其深远意义,首先推荐阅读论文原文——
据论文介绍,CoF的提出源于DeepMind团队的一个疑问:
视频生成模型能否像ChatGPT这类大语言模型(LLM)一样,无需特定任务训练,就能应对各种视觉工作,最终成为“通用视觉基础模型”?
为何追求通用?当前机器视觉领域仍停留在“NLP的老阶段”——
要分割物体就用“Segment Anything”,要检测物体就用YOLO,换个任务就得重新调整或重新训练模型。
既然现在的视频生成模型和LLM基于相同底层逻辑——用海量数据驱动,那么通用视觉并非遥不可及。
为了验证这一猜想,团队采用了一个非常直接的方法:仅提供提示,不进行特殊训练。通过Google的API,给模型“一张初始图(作为第一帧)+ 一段文字指令”,让模型生成8秒、720p的视频。
这与LLM“用提示替代专属训练”的逻辑一致,旨在验证模型的原生通用能力。
经过一系列测试,团队发现视频模型确实具备通用潜力。
具体而言,他们以Veo 3为实验对象,发现其具备四大能力(逐步深入):
第一,无需专门训练,Veo 3就能应对多种经典视觉任务,具备感知能力。
无论是基础任务(如模糊图变清晰),还是复杂任务(如在众多物品中找“蓝色的球”),它都能轻松应对。
...
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542057.html