当前位置：首页 > 科技资讯 > 正文

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破

主机测评网
科技资讯
2026-05-31
808

【导读】浙江大学ReLER团队新开源的ContextGen框架，成功攻克多实例图像生成中的布局与身份协同控制难题。基于Diffusion Transformer架构，通过创新的双重注意力机制，实现精准布局锚定与身份高保真隔离。在基准测试中，超越开源SOTA模型，与GPT-4o等闭源系统比肩，为定制化AI图像生成带来新纪元。

在定制化AI图像生成领域，多实例图像生成（MIG）面临双重挑战：精确布局控制和多主体身份保真的同步实现。现有方法常难以兼顾二者。

为破解这一瓶颈，浙江大学ReLER团队推出ContextGen框架，首次在Diffusion Transformer (DiT) 架构内，通过双重上下文注意力机制实现架构级分层解耦控制。在基准测试中，ContextGen在身份保持能力上超越SOTA开源模型，成功与GPT-4o及Nano-Banana等强大闭源系统相媲美，实现了复杂定制化控制的关键突破。

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第1张

论文地址：https://arxiv.org/abs/2510.11000

代码地址：https://github.com/nenhang/ContextGen

行业挑战：多实例生成中的「协同控制」

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第2张

当前MIG模型在实际应用中，面临布局精准度与身份保真度协同控制的挑战：

宏观布局难以固定：即使模型提供布局控制功能，生成的多个实例也难以精确锚定到指定位置，属性泄露和实例遗失频发，导致图像构图混乱。

身份细节易丢失：多主体定制虽受支持，但主体增加时，身份细节丢失概率显著上升，无法忠实还原每个实例的独特特征。

ContextGen的核心在于利用注意力机制控制的上下文学习，协同解决这两大问题，并在多个关键基准上达到新SOTA水平。

核心机制：布局锚定与身份隔离

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第3张

ContextGen框架基于DiT架构构建，整合所有输入为统一Token序列T。创新之处在于DiT模块中嵌入两个功能各异的「注意力核」。

宏观布局控制模块

Contextual Layout Anchoring (CLA)机制是DiT网络的「布局控制器」，负责全局结构和构图：

机制：MCLA注意力掩码允许查询Token q与所有文本、图像和布局Token广泛通信。

效果：在DiT模块前置和后置层建立宏观约束，确保实例能鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导适配现有DiT上下文学习机制，有效提升布局控制准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制解决多主体身份混淆与丢失问题：

机制：隔离式注意力掩码MICA限制查询Token q仅关注自身区域、文本T及对应参考图像，切断不同实例身份Token的交叉通信。

效果：为每实例创造「注意力孤岛」，保障多主体身份信息的高保真隔离。此机制在实例重叠、压缩等复杂场景中有效缓解身份信息丢失问题，同时维持鲁棒的身份保真度。

辅助优化与数据基石

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第4张

DPO强化学习：引入直接偏好优化(DPO)，解决布局僵硬复制问题，增强生成图像的多样性和自然度。

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第5张

IMIG-100K数据集：团队同步发布IMIG-100K，首个含详细布局与身份标注的大规模高质量多实例合成数据集。

实验成果：开源SOTA，比肩闭源巨头

ContextGen在布局精度和身份保持上取得突破：

布局精度提升：在COCO-MIG基准上，空间准确性(mIoU)提升+5.9%，验证ContextGen在精确构图上的领先地位。

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第6张

身份保持突破：在LAMICBench++测试中，ContextGen在较多主体下的身份保真度(IDS)比肩甚至超越GPT-4o等闭源模型。这一关键结果证明ContextGen在复杂多主体场景中对细节的高保真还原能力。

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破 ContextGen 多实例图像生成布局控制身份保真第7张

定性结果显示，ContextGen能还原细粒度面部特征，灵活融合不同风格参考图像，并遵循用户布局设计要求。

前端支持：用户友好界面

团队开发简单前端界面，用户可上传参考图像，设计布局，便捷生成多实例图像。

结语 ContextGen框架通过引入CLA和ICA双核注意力机制，在DiT架构中实现宏观布局和微观身份信息的分层解耦。 此工作不仅为多实例生成提供SOTA解决方案，突破布局与身份协同控制瓶颈，也为DiT等扩散模型在高度定制化AIGC任务中的应用开辟新路径。 作者简介 本工作由 浙江大学ReLER团队完成，第一作者为浙江大学计算机科学与技术学院本科生许瑞航，通讯作者为杨易教授。ReLER团队长期致力于AI前沿研究。 参考资料： https://arxiv.org/abs/...

服务器教程免费服务器性价比vps

本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260546765.html

上一篇
ChatGPT冲击波：Google AI救星Josh Woodward崛起

下一篇
TwiG：边生成边思考，重塑视觉生成新范式

相关文章

美元存款利率面临下调，投资者需警惕汇率风险

AI架构瓶颈：探索下一代智能的突破

TwiG：边生成边思考，重塑视觉生成新范式

ChatGPT冲击波：Google AI救星Josh Woodward崛起

拼多多面临低价挑战，黄峥的供应链战略能否破局？

2025智能眼镜：AI新战场，巨头争相布局

2025外设市场：旧王退位，新王争霸，AI驱动变革

自动驾驶技术受停电挑战：规则失效下的脆弱性