当前,文生图(Text-to-Image)与视频生成技术正经历飞速发展,以FLUX.1、Emu3为代表的扩散模型与自回归模型,已经能够生成令人惊叹的逼真画面。
然而,当面对复杂的空间关系、多物体交互或精确的数量控制等挑战时,这些模型常常暴露出不足:例如,可能会将猫错误地绘制到窗外,或将三个苹果画成四个。
为攻克这一难题,学术界此前主要探索了两条技术路径:
一条是‘谋定而后动’(Think-before-Generation),即在生成之前先详细规划布局。但这类似于要求画家在动笔前必须构思好每一笔,一旦开始绘制便难以调整,缺乏灵活性。
另一条是‘亡羊补牢’(Think-after-Generation),即先生成完整图像,再通过多轮对话进行纠错修改。这种方法虽有效,但往往带来巨大的推理开销和漫长的等待。
那么,是否存在一种方法,能让模型像人类画家一样,在创作过程中适时停下审视,既检查已绘部分是否正确,又为后续绘制做好规划?
近期,来自香港中文大学、美团等机构的研究团队提出了一种全新范式——Thinking-while-Generating(TwiG)。这是首个在单一生成轨迹中,以局部区域为粒度,将文本推理与视觉生成深度交织(Interleave)的框架。
如果说以往的视觉生成是‘一气呵成’,那么TwiG则更像是一种‘间歇性思考’的过程。
研究团队受大语言模型(LLM)中思维链(Chain-of-Thought)的启发,但反其道而行之:不再是用图像辅助推理,而是用推理来引导图像生成。
在TwiG框架下,视觉生成不再是一个黑盒式的连续过程,而是被拆解为‘生成-思考-再生成’的循环。模型会在绘制过程中多次‘暂停’,插入一段文本推理(Thought),用以总结当前的视觉状态,并指导接下来的生成步骤。
1. When to Think(何时思考):模型首先根据用户的Prompt(提示词)规划出一个‘思维时间表’。研究发现,将画面生成过程划分为3个阶段效果最佳,这与图像通常包含‘上部背景、主体内容、下部背景’的语义结构相契合。
2. What to Say(思考什么):在每个暂停点,模型会生成一段‘思维链’。这段文本不仅承接上文逻辑,更像一个微型路书,专门指导接下来局部区域的绘制。这种细粒度引导比‘一句Prompt走天下’的方式精确得多。
3. How to Refine(如何修正):在完成一个局部后,模型会立即进行自我批判(Self-Reflection)。若发现错误,如位置偏差或颜色失真,它会触发‘重画’机制,仅修正当前局部,无需推倒重来。
为验证这一范式的潜力,研究团队在统一多模态模型(如Janus-Pro)上进行了层层递进的实验。
Zero-Shot潜力惊人
仅通过精心设计的Prompt,无需任何参数更新,模型便展现出强大的‘边画边想’能力。
在T2I-CompBench基准测试中,Zero-Shot版的TwiG(TwiG-ZS)在属性绑定、空间关系等多个维度上显著超越基准模型。
结果表明,在合适的interleave约束与提示下,现有多模态模型已具备一定的在生成过程中进行推理的潜力。
SFT提升稳定性
团队进一步构建了包含50K数据的高质量数据集TwiG-50K,对模型进行监督微调(SFT)。结果显示,SFT有效减少了模型‘胡思乱想’产生的幻觉,使生成的思维链更加简练、可控。
RL突破上限
团队采用了针对TwiG优化的GRPO策略(Group Relative Policy Optimization),让模型在‘何时思考、思考什么、如何修正’的策略上进行自我博弈和进化。
实验数据显示,经过RL训练的TwiG-RL,在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型相竞争甚至部分维度更优的表现。
TwiG的提出,不仅是一种技术上的优化,更是一种观念上的转变。它试图打破视觉生成模型的‘黑盒’属性,通过引入可读的文本推理,让生成过程变得透明、可控且具有逻辑性。
研究团队的结论可以总结为以下几点:
1. 生成需要逻辑:单纯的像素概率预测难以处理复杂的逻辑约束,引入显式的文本推理是必经之路。
2. 修正优于重绘:相比于画完再改的‘大动干戈’,在生成过程中进行局部的即时修正是更高效的策略。
3. RL是关键:强化学习不仅能优化最终的图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键钥匙。
目前的TwiG中的具体实现与实验验证主要基于自回归ULM(如Janus-Pro),但框架在设计上对扩散模型同样兼容。这种‘边生成边思考’的范式有望扩展到视频生成、3D建模等更复杂的领域,为通往真正的通用视觉智能提供新的拼图。
论文题目:Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
论文链接:https://arxiv.org/abs/2511.16671
项目主页:https://think-while-gen.github.io
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329677.html