【导读】浙江大学ReLER团队开源ContextGen框架,攻克了多实例图像生成领域中布局控制与身份保持难以同步实现的关键技术瓶颈。该框架基于Diffusion Transformer(DiT)架构,创新性地引入双重注意力机制,在实现像素级布局精准锚定的同时,确保多主体身份信息高保真隔离。在权威基准测试中,ContextGen全面超越开源SOTA模型,性能直接对标GPT-4o等顶尖闭源系统,为高度定制化AI图像生成开辟了全新路径。
在定制化AI图像生成赛道中,多实例图像生成(MIG)长期受困于一个核心协同控制悖论:如何在毫厘不差的布局约束与各主体身份特征完整复现之间取得完美平衡。
现有技术路线大多只能单向优化,即便少数方法尝试兼顾,其综合性能与实用门槛仍存在明显短板。
为彻底打破这一布局—身份协同控制藩篱,浙江大学ReLER团队正式推出ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意力机制实现从架构本源出发的分层解耦控制。
ContextGen在多项严苛基准评测中,身份保持能力强势领跑开源模型阵营,并成功与GPT-4o、Nano-Banana等闭源商业系统同台竞技,在复杂定制化生成控制任务上完成了从追赶、并跑乃至局部反超的关键跨越。
论文地址:https://arxiv.org/abs/2510.11000
代码地址:https://github.com/nenhang/ContextGen
当前主流MIG模型在实际工业级应用中,布局精度与身份保真度之间的协同控制瓶颈尤为突出:
宏观布局难以固化:即便模型显式集成了布局控制模块,生成的多实例依然无法稳定地“落位”至用户指定的坐标区域。属性交错污染、实例凭空消失等现象频发,最终构图往往与预期南辕北辙。
身份细节极易丢失:当前诸多模型已具备多主体定制生成能力,然而一旦主体数量超过2个,各实例的独有身份特征便会急剧退化,生成结果难以忠实复刻每一参考主体的面部细节、衣着纹理等关键标识。
ContextGen的核心突破在于:它将基于注意力机制的上下文学习注入DiT生成流程,从模型架构层面系统性地解决上述两个痛点,并在多个国际公认的基准测试中刷新SOTA纪录。
ContextGen框架完全构建于DiT架构之上,将所有输入模态统一编码为Token序列T。其精妙之处在于在DiT模块内部并联嵌入了两个功能截然分化的「注意力核」。
CLA是DiT网络中负责全局构图与空间约束的“布局指挥中枢”:
机制:该模块通过特定注意力掩码MCLA,赋予查询Token q与所有文本Token、图像Token及布局Token进行全局无限制通信的权限。
效果:通过在DiT模块的前置与后置层施加宏观空间约束,CLA能够确保生成实例刚性遵循用户框定的布局边界。这种图像级的宏观布局引导完美适配DiT原生的上下文学习范式,以极简架构代价显著提升布局命中率。
ICA是阻断多主体身份混淆与特征湮灭的“身份防护罩”:
机制:采用严格隔离的注意力掩码MICA,强制规定位于实例n边界框Bn内的所有查询Token q,其注意力视野仅限缩于自身区域Bn、全局文本T以及专属参考图像Rn——彻底阻断跨实例身份Token的交互。
效果:该设计在DiT模块的中层构建起“注意力孤岛”,从机制底层保证各主体身份信息的高保真隔离注入。在面对实例交叠、尺度压缩等高难度生成场景时,ICA展现出极强的身份保持鲁棒性,且上下文长度增长时保真度几乎不发生衰减。
DPO强化学习:引入直接偏好优化(DPO)策略,有效规避传统监督微调带来的“布局模板化”陷阱,使生成图像在遵循布局的前提下仍能保持丰富的细节多样性与视觉自然感。
IMIG-100K数据集:团队同步开源IMIG-100K——这是目前首个涵盖精细布局标注与身份标注、并按难度分层的大规模高质量多实例合成数据集,为后续研究提供了标准化的训练与评测基石。
ContextGen的性能跃升在布局精度与身份保持两大维度均有量化验证:
布局精度跃升:在COCO-MIG基准上,空间重叠度(mIoU)相对提升达+5.9%,充分印证ContextGen在构图精准控制方面的绝对领先性。
身份保持突破:在LAMICBench++身份保持专项测试中,ContextGen在多主体场景下的身份相似度(IDS)分数已持平甚至超越GPT-4o、Nano-Banana等闭源商业模型。这一关键结果铁证如山,表明ContextGen在复杂多实例生成任务中具备顶尖的细节保真还原能力。
定性生成案例清晰显示:ContextGen不仅能精准还原参考人像的微观面部特征,还能在多种艺术风格参考图像之间自由切换融合,同时严格恪守用户绘制的任意布局约束。
团队同时发布了简洁直观的Web前端界面,用户仅需上传若干参考图像,通过鼠标拖拽即可自由设计实例布局,秒级生成符合复杂定制需求的多实例图像。
ContextGen框架通过在DiT架构中巧妙植入CLA与ICA双核注意力机制,首次在架构层面实现宏观布局控制与微观身份保真的分层解耦。
该项工作不仅为多实例图像生成领域提供了开箱即用的SOTA解决方案,彻底扫清了布局与身份难以协同控制的长期障碍,更为DiT等基础扩散模型在高度定制化AIGC场景中的深度进化指明了全新范式。
作者简介
本工作由浙江大学ReLER团队独立完成,第一作者为浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期深耕人工智能前沿交叉领域,研究触角覆盖生成模型、多模态学习、AI+X科学智能等众多方向。
参考资料:https://arxiv.org/abs/2510.11000
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224962.html