当前位置:首页 > 科技资讯 > 正文

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破

【导读】浙江大学ReLER团队新开源的ContextGen框架,成功攻克多实例图像生成中的布局与身份协同控制难题。基于Diffusion Transformer架构,通过创新的双重注意力机制,实现精准布局锚定与身份高保真隔离。在基准测试中,超越开源SOTA模型,与GPT-4o等闭源系统比肩,为定制化AI图像生成带来新纪元。

在定制化AI图像生成领域,多实例图像生成(MIG)面临双重挑战:精确布局控制多主体身份保真的同步实现。现有方法常难以兼顾二者。

为破解这一瓶颈,浙江大学ReLER团队推出ContextGen框架,首次在Diffusion Transformer (DiT) 架构内,通过双重上下文注意力机制实现架构级分层解耦控制。在基准测试中,ContextGen在身份保持能力上超越SOTA开源模型,成功与GPT-4o及Nano-Banana等强大闭源系统相媲美,实现了复杂定制化控制的关键突破。

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第1张

论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业挑战:多实例生成中的「协同控制」

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第2张

当前MIG模型在实际应用中,面临布局精准度与身份保真度协同控制的挑战:

宏观布局难以固定:即使模型提供布局控制功能,生成的多个实例也难以精确锚定到指定位置,属性泄露和实例遗失频发,导致图像构图混乱。

身份细节易丢失:多主体定制虽受支持,但主体增加时,身份细节丢失概率显著上升,无法忠实还原每个实例的独特特征。

ContextGen的核心在于利用注意力机制控制的上下文学习,协同解决这两大问题,并在多个关键基准上达到新SOTA水平。

核心机制:布局锚定与身份隔离

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第3张

ContextGen框架基于DiT架构构建,整合所有输入为统一Token序列T。创新之处在于DiT模块中嵌入两个功能各异的「注意力核」。

宏观布局控制模块

Contextual Layout Anchoring (CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:MCLA注意力掩码允许查询Token q与所有文本、图像和布局Token广泛通信。

效果:在DiT模块前置和后置层建立宏观约束,确保实例能鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导适配现有DiT上下文学习机制,有效提升布局控制准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制解决多主体身份混淆与丢失问题:

机制:隔离式注意力掩码MICA限制查询Token q仅关注自身区域、文本T及对应参考图像,切断不同实例身份Token的交叉通信。

效果:为每实例创造「注意力孤岛」,保障多主体身份信息的高保真隔离。此机制在实例重叠、压缩等复杂场景中有效缓解身份信息丢失问题,同时维持鲁棒的身份保真度。

辅助优化与数据基石

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第4张

DPO强化学习:引入直接偏好优化(DPO),解决布局僵硬复制问题,增强生成图像的多样性和自然度。

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第5张

IMIG-100K数据集:团队同步发布IMIG-100K,首个含详细布局与身份标注的大规模高质量多实例合成数据集。

实验成果:开源SOTA,比肩闭源巨头

ContextGen在布局精度和身份保持上取得突破:

布局精度提升:在COCO-MIG基准上,空间准确性(mIoU)提升+5.9%,验证ContextGen在精确构图上的领先地位。

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第6张

身份保持突破:在LAMICBench++测试中,ContextGen在较多主体下的身份保真度(IDS)比肩甚至超越GPT-4o等闭源模型。这一关键结果证明ContextGen在复杂多主体场景中对细节的高保真还原能力。

浙江大学ReLER团队发布ContextGen框架,实现多实例图像生成新突破 ContextGen 多实例图像生成 布局控制 身份保真 第7张

定性结果显示,ContextGen能还原细粒度面部特征,灵活融合不同风格参考图像,并遵循用户布局设计要求。

前端支持:用户友好界面

团队开发简单前端界面,用户可上传参考图像,设计布局,便捷生成多实例图像。

结语 < p > ContextGen框架通过引入CLA和ICA双核注意力机制,在DiT架构中实现宏观布局和微观身份信息的分层解耦。 < p > 此工作不仅为多实例生成提供SOTA解决方案,突破布局与身份协同控制瓶颈,也为DiT等扩散模型在高度定制化AIGC任务中的应用开辟新路径。 < p > < strong > 作者简介 < p > 本工作由 < strong > 浙江大学ReLER团队 完成,第一作者为浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为杨易教授。ReLER团队长期致力于AI前沿研究。 < p > 参考资料: https://arxiv.org/abs/...