仅需一句话,即可将普通照片转为专业级大片,操作比专业软件更简便,效果比传统AI修图更精准可控!
腾讯混元与厦门大学联合发布了JarvisEvo——一款统一的图像编辑智能体。它通过模拟人类设计师的思考方式,运用迭代编辑、视觉感知、自我评估与反思等机制,实现智能化修图。
“像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能够熟练运用Lightroom进行修图,还能“观察”每次调整后的效果,并自主评判优劣,从而在无需外部奖励的情况下实现自我进化。
接下来,让我们一起深入了解其核心技术吧~
近年来,尽管基于指令的图像编辑模型取得了长足进步,但在实现“专业级”修图体验方面,仍面临两大主要难题:
现有的纯文本思维链 (Text-only CoT) 存在信息局限。模型在推理过程中无法实时查看中间修图效果,只能依靠文本假设来推演后续操作,容易引发事实性偏差,难以保证每一步都符合用户预期。
在强化学习偏好对齐过程中,策略模型(Policy)持续更新,而奖励模型(Reward Model)则保持静态,这导致策略模型可能通过欺骗奖励函数获取高分,而非真正提升修图质量和自我评估能力。
针对上述挑战,研究团队推出了JarvisEvo。
iMCoT机制突破了传统“盲修”的局限。JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought) 机制。与纯文本推理不同,JarvisEvo每完成一步编辑都会生成新图像,并根据视觉反馈进行下一步推理。
模型遵循“生成文本假设 → 执行工具 → 观察视觉结果 → 反思决策”的循环流程,确保每一步操作都精准执行。
SEPO是JarvisEvo实现“自进化”的核心引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization) 框架,包含两个协同进化的优化环:
编辑者优化环 (Loop 1):模型利用自我评估分数作为内在奖励,摆脱易被攻击的外部奖励模型依赖。
评估者优化环 (Loop 2):借助人类标注数据持续校准模型的评估能力,避免模型在自我打分时产生偏差。
JarvisEvo具备从错误中学习的能力。训练过程中,系统会自动对比低分轨迹与高分轨迹,生成反思数据 (Reflection Data)。模型通过分析“为何出错”以及“如何修正”,获得强大的自我纠错能力。
传统纯文本思维链(Text-only CoT)通常采用“盲修”模式,即一次性生成所有步骤。
而JarvisEvo采用交互式多模态思维链 (iMCoT),模拟人类设计师“观察-操作-检查”的闭环工作流。
整个推理过程分为四个核心步骤:
1、视觉感知与规划 (Perception & Planning):模型首先分析原始图像(I)与用户指令(Q),生成初步修图方案。
2、多步工具执行 (Step-by-Step Execution):
模型生成交错的文本推理内容(C)和工具调用指令(T)。
工具沙盒 (Sandbox):指令被发送至外部Adobe Lightroom环境执行,生成中间态编辑图像(O)。
视觉反馈 (Visual Feedback):模型会“观察”刚修好的图像,基于最新视觉状态决定下一步是继续调整还是修正错误。
3、自我评估 (Self-Evaluation):修图完成后,模型对最终结果(Ot)的美学质量和指令符合度进行自我打分(S)。
4、自我反思 (Self-Reflection):若结果不理想,模型触发反思机制,分析偏差原因并尝试纠正。
为打造这一全能型Agent,团队设计了一套严谨的三阶段训练流水线:
Stage 1: 冷启动监督微调 (Cold-Start SFT)
数据量:150K标注样本(110K编辑数据+40K评估数据)。
目标:赋予模型“基本功”,包括掌握多模态推理语法、交替生成文本与图像内容、依据视觉线索选择正确工具,以及初步建立审美评估能力。
Stage 2: SEPO强化学习 (The Evolution)
数据量:20K标准指令数据(10K编辑+10K评估)。
核心机制:引入 协同编辑-评估策略优化 (SEPO) 。此阶段模型不再模仿标准答案,开始自主探索。
双优化驱动:使模型从“会用工具”进化为“精通修图”。 编辑者优化:通过自我打分(Self-Reward)优化修图策略,并利用SLM (Selective Loss Masking) 防止奖励作弊。 评估者优化:利用人类评分数据校准模型的审美标准,确保其成为公正的裁判。
Stage 3: 反思微调 (Reflection Fine-Tuning)
数据量:5K少量在线生成的反思样本。
目标:这是JarvisEvo获得“自我纠错”能力的关键。通过学习在错误路径上反思和修正,模型处理复杂指令时的鲁棒性大幅提升。
在传统强化学习(RLHF)中,模型通常依赖静态的“奖励模型”进行打分。
但这存在致命缺陷:随着策略模型能力增强,它会学会“钻空子”(Reward Hacking),即通过生成特定模式来骗取高分,而非真正提升编辑能力。
为此,JarvisEvo提出SEPO框架。其核心思想是:让模型同时担任“运动员”与“裁判员”,并通过两个并行优化环实现能力协同进化。
Loop 1 编辑者优化环 (Editor Policy Optimization):旨在让模型学会如何更好使用工具修出好图。
自我奖励 (Self-Reward) 机制:JarvisEvo不再依赖外部黑盒模型,而是利用自身Self-evaluation能力。生成修图轨迹后,模型根据最终图像的美学质量和指令遵循度进行自我打分。
GRPO优化目标:采用群相对策略优化 (Group Relative Policy Optimization)。对同一输入,模型生成多条修图轨迹,通过比较轨迹的“胜率”(Pairwise Preference Reward)进行更新,而非依赖绝对分数,使训练更稳定。
选择性损失掩码 (SLM):这是防止作弊的关键技术。若无SLM,模型可能通过生成满分自我评分文本降低loss。为防止信息泄露,计算编辑器梯度时,强制掩盖自我评分部分token,迫使模型必须通过提升推理质量 (Chain-of-Thought) 和工具使用准确性 (Tool Use) 来间接获得高分。
评估者优化环 (Evaluator Policy Optimization):确保“裁判员”公正、客观且符合人类审美。
可验证的强化学习 (Verifiable RL):Loop 1依赖自我打分,但若裁判审美偏离,需Loop 2解决。使用包含人类专家标注 (Human-Annotated) 的数据集训练模型评估能力。
分数对齐奖励 (Score Alignment Reward):此循环奖励取决于模型打分与人类专家打分的接近程度。
作用:持续校准模型审美标准,防止其在Loop 1中陷入“自我陶醉”,确保自我奖励信号的可靠性。
这两个循环交替进行,形成“左右互搏”的进化效应,打破静态奖励模型桎梏,实现闭环、可持续的自我能力提升。
JarvisEvo如何学会“从错误中学习”?团队在Stage 2训练过程中植入了自动化数据生成:
捕捉契机:当模型生成更优修图轨迹Trajectory0(得分s0)且显著高于先前某次尝试Trajectory3(得分s3)时,触发反思生成。
归因分析:调用商业大模型(如Gemini-2.5-Pro)作为“导师”,输入源图、错误修图结果O3、正确修图结果O0及用户指令。
生成反思链:“导师”生成详细分析文本(R),解释O3失败原因(如“白平衡参数过高导致偏色”),并指出正确做法。
构建样本:将包含“错误尝试 → 深刻反思 → 正确修正”的完整轨迹存入数据集Dataset_reft,用于第三阶段微调。
为支撑上述训练,团队构建了ArtEdit——一个包含170K样本的双语(中/英)专业修图数据集。涵盖人像、风光、建筑、静物、夜景等10大类、37个子类的专业摄影场景。通过A2L (Agent-to-Lightroom) 协议,无缝集成Adobe Lightroom中200+个修图工具。
ArtEdit-Lr (120K):专注于修图任务,包含完整iMCoT轨迹(推理思考、工具参数、中间图)。
ArtEdit-Eval (50K):专注于审美评估,包含人类专家对图像质量和指令遵循度的打分(1-5分)。
在ArtEdit-Bench评测中,L1和L2指标上,JarvisEvo相比商业级模型Nano-Banana提升了44.96%,最大程度保留了原图细节。
在SC(语义一致性)和PQ(感知质量)指标上全面领先,平均提升18.95%。
其打分与人类主观偏好的相关性(SRCC 0.7243)超越了GPT-4o (Gemini-2.5-flash) 及专门的IQA模型。
在视觉效果上,与其他模型相比,JarvisEvo处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现优异。
在包含200个样本的人类主观评测中,JarvisEvo与Nano-Banana的对决中取得49%的胜率(远超对手Nano Banana的28%),证明其修图结果更符合人类审美。
这种“生成器-内部批评家”的协同进化范式具备强大通用性,未来有望从修图拓展至数学推理、代码生成及长程规划等领域。
同时,团队将致力于突破当前步数限制,探索超过10步的复杂长程推理任务。
感兴趣的朋友可点击下方链接了解更多细节~
项目主页: https://jarvisevo.vercel.app/
论文全文: https://arxiv.org/pdf/2511.23002
Github:https://github.com/LYL1015/JarvisEvo
Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
本文由主机测评网于2026-03-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260330267.html