在文本到图像(Text-to-Image)以及视频生成的领域中,诸如FLUX.1和Emu3之类的扩散模型与自回归模型已能创造出极其逼真的图像。
然而,当这些模型面对复杂的空间关系、多物体交互或精确数量控制时,它们常常会出现错误:有时会把猫画到窗外,有时会把三个苹果画成四个。
为了克服这一挑战,学术界之前探索了两种主要途径:
一是“谋定而后动”(Think-before-Generation),即在开始绘制前制定详细的布局计划。但这种方法就像要求画家在动笔前必须详细规划每一笔,一旦开始就无法更改,缺乏灵活性。
另一条途径是“亡羊补牢”(Think-after-Generation),即先完成图像绘制,再通过多轮对话进行纠错和修改。尽管这种方法有效,但通常伴随着巨大的推理开销和漫长的等待时间。
那么,有没有一种方法能让模型像人类画家一样,在创作过程中停下来审视并规划下一步呢?
近期,来自香港中文大学、美团等机构的研究团队提出了一种全新的范式——Thinking-while-Generating(TwiG)。这是首个在单一生成轨迹中,以局部区域为粒度,将文本推理与视觉生成深度交织的框架。
如果说之前的视觉生成是“一气呵成”,TwiG则更像是一种“间歇性思考”。
研究团队受到大语言模型(LLM)中思维链(Chain-of-Thought)的启发,反其道而行之:不再用图片辅助推理,而是用推理来引导作画。
在TwiG框架下,视觉生成不再是连续的黑盒过程,而是被拆解为“生成-思考-再生成”的循环。模型在绘制过程中多次“暂停”,插入一段文本推理(Thought),用于总结当前的视觉状态,并指导接下来的生成。
1. When to Think(何时思考):模型首先根据用户的Prompt(提示词),规划出一个“思维时间表”。研究发现,将画面生成过程拆解为三个阶段效果最佳,这恰好符合图像通常包含“上部背景、主体内容、下部背景”的语义结构。
2. What to Say(思考什么):在每个暂停点,模型会生成一段“思维链”。这段文本不仅承接了上文的逻辑,更像是一个微型指南,专门指导接下来的局部区域该如何绘制。这种细粒度的引导比单一Prompt更加精准。
3. How to Refine(如何修正):在绘制一个局部后,模型会立即进行自我批判(Self-Reflection)。如果发现绘制有误或颜色不对,它会立即触发“重画”机制,只修正当前局部,无需整体重做。
为了验证这一范式的潜力,研究团队在统一多模态模型(如Janus-Pro)上进行了层层递进的实验。
Zero-Shot潜力惊人
仅通过精心设计的Prompt,而无需任何参数更新,模型已展现出强大的“边画边想”能力。
在T2I-CompBench基准测试中,Zero-Shot版的TwiG(TwiG-ZS)在属性绑定、空间关系等多个维度上显著超越了基准模型。
结果表明,在合适的interleave约束与提示下,现有多模态模型已具备一定的在生成过程中进行推理的潜力。
SFT提升稳定性
团队进一步构建了包含50K数据的高质量数据集TwiG-50K,对模型进行监督微调(SFT)。结果显示,SFT有效减少了模型产生的幻觉,使生成的思维链更加简练、可控。
RL突破上限
团队采用了针对TwiG优化的GRPO策略(Group Relative Policy Optimization),让模型在“何时思考、思考什么、如何修正”的策略上进行自我博弈和进化。
实验数据显示,经过RL训练的TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上展现出与Emu3、FLUX.1等模型具有竞争力、甚至在部分维度上更优的表现。
TwiG的提出不仅是对技术的一种优化,更是对观念的一种转变。它试图打破视觉生成模型的“黑盒”属性,通过引入可读的文本推理,使生成过程变得透明、可控且具逻辑性。
研究团队的结论可总结为以下几点:
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260546766.html