当前位置：首页 > 科技资讯 > 正文

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈

主机测评网
科技资讯
2026-03-09
248

【导读】浙江大学ReLER团队正式开源ContextGen框架，成功攻克多实例图像生成中布局与身份的协同控制难题。该框架基于Diffusion Transformer架构，通过创新的双重注意力机制，实现了布局的精准锚定与身份的高保真隔离。在多项基准测试中，ContextGen不仅超越了现有的开源SOTA模型，更在性能上对标GPT-4o等闭源系统，为定制化AI图像生成带来了革命性突破。

在AI定制化图像生成领域，多实例图像生成（MIG）面临一个核心协同控制挑战：如何在实现精确布局控制的同时，确保多主体身份保真的同步达成。

现有方法往往只能满足其中一项要求，少数能兼顾的方案在性能上也存在明显短板。

针对这一布局与身份协同控制的难题，浙江大学ReLER团队创新性地提出了ContextGen框架，首次在Diffusion Transformer (DiT) 架构内部，通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试中表现卓越，其身份保持能力不仅超越了开源SOTA模型，还成功对标GPT-4o和Nano-Banana等闭源系统，在复杂定制化控制领域实现了关键性突破。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第1张

论文地址：https://arxiv.org/abs/2510.11000

代码地址：https://github.com/nenhang/ContextGen

行业痛点：多实例生成中的协同控制挑战

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第2张

当前MIG模型在实际应用中，主要暴露出布局精准度与身份保真度协同控制上的两大难题：

宏观布局难以固化：即使模型显式提供布局控制功能，生成的多个实例仍难以精确锚定到用户指定的空间位置，属性泄露和实例遗失现象频发，导致生成图像构图混乱且不符合预期。

身份细节极易丢失：目前许多模型支持多主体定制化，但随着主体数量增加，身份细节丢失的概率显著上升，生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于：它利用注意力机制控制的上下文学习，协同解决了上述两个问题，并在多个关键基准上达到了新的SOTA水平。

核心机制：布局锚定与身份隔离

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第3张

ContextGen框架基于DiT架构构建，将所有输入整合成一个统一的Token序列T，其创新之处在于在DiT模块中嵌入了两个功能不同的「注意力核」。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」，负责全局结构和构图：

机制：该模块采用的注意力掩码MCLA允许查询Token q与所有文本、图像和布局Token进行广泛通信。

效果：通过在DiT模块的前置和后置层建立宏观约束，确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配现有的DiT上下文学习机制，简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」：

机制：采用隔离式的注意力掩码MICA，强制限制位于实例n边界框Bn内的查询Token q，只能关注其自身区域Bn、文本T以及对应的参考图像Rn。

效果：这一设计在DiT模块的中间层切断了不同实例身份Token之间的交叉通信，为每个实例创造了一个「注意力孤岛」，从机制上保障了多主体身份信息的高保真隔离注入。该机制在应对实例重叠、压缩等复杂场景时，能有效缓解身份信息丢失问题，同时在上下文变长时仍能维持鲁棒的身份保真度。

辅助优化与数据基石

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第4张

DPO强化学习：引入直接偏好优化 (DPO)，解决了监督微调可能导致的布局僵硬复制问题，从而增强了生成图像的多样性和自然度。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第5张

IMIG-100K数据集：团队同步发布了IMIG-100K，这是首个包含详细布局与身份标注、涵盖不同难度层级的大规模高质量多实例合成数据集。

实验结果：开源SOTA，对标闭源巨头

ContextGen的性能突破体现在布局精度和身份保持两个维度：

布局精度提升：在COCO-MIG基准上，空间准确性 (mIoU) 实现了+5.9%的提升，验证了ContextGen在精确构图上的领先性。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第6张

身份保持的突破：在LAMICBench++身份保持测试中，ContextGen在较多主体下的身份保真度 (IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中对细节的保真还原能力。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第7张

定性结果清晰显示，ContextGen不仅能还原细粒度的面部特征，还能灵活融合不同风格的参考图像，同时严格遵循用户的布局设计要求。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第8张

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第9张

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第10张

前端支持：用户友好界面

团队还开发了一个简单的前端界面，用户可以上传自己的参考图像，方便地设计布局，从而定制化生成多实例图像。

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈多实例图像生成布局控制身份保真 Diffusion Transformer 第11张

结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制，创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案，成功突破了布局与身份的协同控制瓶颈，也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径。

作者简介

本工作由浙江大学ReLER团队完成，其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航，通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究，包括但不限于生成模型、多模态学习、AI+X等方向。

参考资料：https://arxiv.org/abs/2510.11000

服务器教程免费服务器高防服务器

本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329675.html

浙江大学ReLER团队开源ContextGen：突破多实例图像生成布局与身份协同控制瓶颈

行业痛点：多实例生成中的协同控制挑战