当前位置：首页 > 科技资讯 > 正文

JarvisEvo：智能图像编辑Agent

主机测评网
科技资讯
2026-03-10
606

仅需一句话，即可将普通照片转为专业级大片，操作比专业软件更简便，效果比传统AI修图更精准可控！

腾讯混元与厦门大学联合发布了JarvisEvo——一款统一的图像编辑智能体。它通过模拟人类设计师的思考方式，运用迭代编辑、视觉感知、自我评估与反思等机制，实现智能化修图。

JarvisEvo：智能图像编辑Agent JarvisEvo 图像编辑多模态思维链自我进化第1张

“像专家一样思考，像工匠一样打磨”。JarvisEvo不仅能够熟练运用Lightroom进行修图，还能“观察”每次调整后的效果，并自主评判优劣，从而在无需外部奖励的情况下实现自我进化。

接下来，让我们一起深入了解其核心技术吧～

自我评估与修正机制

研究背景与动机

近年来，尽管基于指令的图像编辑模型取得了长足进步，但在实现“专业级”修图体验方面，仍面临两大主要难题：

指令幻觉 (Instruction Hallucination)：

现有的纯文本思维链 (Text-only CoT) 存在信息局限。模型在推理过程中无法实时查看中间修图效果，只能依靠文本假设来推演后续操作，容易引发事实性偏差，难以保证每一步都符合用户预期。

奖励黑客 (Reward Hacking)：

在强化学习偏好对齐过程中，策略模型（Policy）持续更新，而奖励模型（Reward Model）则保持静态，这导致策略模型可能通过欺骗奖励函数获取高分，而非真正提升修图质量和自我评估能力。

针对上述挑战，研究团队推出了JarvisEvo。

iMCoT：交互式多模态思维链

iMCoT机制突破了传统“盲修”的局限。JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought) 机制。与纯文本推理不同，JarvisEvo每完成一步编辑都会生成新图像，并根据视觉反馈进行下一步推理。

模型遵循“生成文本假设 → 执行工具 → 观察视觉结果 → 反思决策”的循环流程，确保每一步操作都精准执行。

SEPO：协同编辑与评估策略优化

SEPO是JarvisEvo实现“自进化”的核心引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization) 框架，包含两个协同进化的优化环：

编辑者优化环 (Loop 1)：模型利用自我评估分数作为内在奖励，摆脱易被攻击的外部奖励模型依赖。

评估者优化环 (Loop 2)：借助人类标注数据持续校准模型的评估能力，避免模型在自我打分时产生偏差。

在线反思与自我修正

JarvisEvo具备从错误中学习的能力。训练过程中，系统会自动对比低分轨迹与高分轨迹，生成反思数据 (Reflection Data)。模型通过分析“为何出错”以及“如何修正”，获得强大的自我纠错能力。

像人类一样“边看边修”

JarvisEvo系统架构

传统纯文本思维链（Text-only CoT）通常采用“盲修”模式，即一次性生成所有步骤。

而JarvisEvo采用交互式多模态思维链 (iMCoT)，模拟人类设计师“观察-操作-检查”的闭环工作流。

整个推理过程分为四个核心步骤：

1、视觉感知与规划 (Perception & Planning)：模型首先分析原始图像（I）与用户指令（Q），生成初步修图方案。

2、多步工具执行 (Step-by-Step Execution)：

模型生成交错的文本推理内容（C）和工具调用指令（T）。

工具沙盒 (Sandbox)：指令被发送至外部Adobe Lightroom环境执行，生成中间态编辑图像（O）。

视觉反馈 (Visual Feedback)：模型会“观察”刚修好的图像，基于最新视觉状态决定下一步是继续调整还是修正错误。

3、自我评估 (Self-Evaluation)：修图完成后，模型对最终结果（Ot）的美学质量和指令符合度进行自我打分（S）。

4、自我反思 (Self-Reflection)：若结果不理想，模型触发反思机制，分析偏差原因并尝试纠正。

JarvisEvo：智能图像编辑Agent JarvisEvo 图像编辑多模态思维链自我进化第2张

三阶段训练框架

为打造这一全能型Agent，团队设计了一套严谨的三阶段训练流水线：

Stage 1: 冷启动监督微调 (Cold-Start SFT)

数据量：150K标注样本（110K编辑数据+40K评估数据）。

目标：赋予模型“基本功”，包括掌握多模态推理语法、交替生成文本与图像内容、依据视觉线索选择正确工具，以及初步建立审美评估能力。

Stage 2: SEPO强化学习 (The Evolution)

数据量：20K标准指令数据（10K编辑+10K评估）。

核心机制：引入 协同编辑-评估策略优化 (SEPO) 。此阶段模型不再模仿标准答案，开始自主探索。

双优化驱动：使模型从“会用工具”进化为“精通修图”。编辑者优化：通过自我打分（Self-Reward）优化修图策略，并利用SLM (Selective Loss Masking) 防止奖励作弊。评估者优化：利用人类评分数据校准模型的审美标准，确保其成为公正的裁判。

Stage 3: 反思微调 (Reflection Fine-Tuning)

数据量：5K少量在线生成的反思样本。

目标：这是JarvisEvo获得“自我纠错”能力的关键。通过学习在错误路径上反思和修正，模型处理复杂指令时的鲁棒性大幅提升。

JarvisEvo：智能图像编辑Agent JarvisEvo 图像编辑多模态思维链自我进化第3张

SEPO：协同编辑-评估策略优化详解

在传统强化学习（RLHF）中，模型通常依赖静态的“奖励模型”进行打分。

但这存在致命缺陷：随着策略模型能力增强，它会学会“钻空子”（Reward Hacking），即通过生成特定模式来骗取高分，而非真正提升编辑能力。

为此，JarvisEvo提出SEPO框架。其核心思想是：让模型同时担任“运动员”与“裁判员”，并通过两个并行优化环实现能力协同进化。

Loop 1 编辑者优化环 (Editor Policy Optimization)：旨在让模型学会如何更好使用工具修出好图。

自我奖励 (Self-Reward) 机制：JarvisEvo不再依赖外部黑盒模型，而是利用自身Self-evaluation能力。生成修图轨迹后，模型根据最终图像的美学质量和指令遵循度进行自我打分。

GRPO优化目标：采用群相对策略优化 (Group Relative Policy Optimization)。对同一输入，模型生成多条修图轨迹，通过比较轨迹的“胜率”（Pairwise Preference Reward）进行更新，而非依赖绝对分数，使训练更稳定。

选择性损失掩码 (SLM)：这是防止作弊的关键技术。若无SLM，模型可能通过生成满分自我评分文本降低loss。为防止信息泄露，计算编辑器梯度时，强制掩盖自我评分部分token，迫使模型必须通过提升推理质量 (Chain-of-Thought) 和工具使用准确性 (Tool Use) 来间接获得高分。

评估者优化环 (Evaluator Policy Optimization)：确保“裁判员”公正、客观且符合人类审美。

可验证的强化学习 (Verifiable RL)：Loop 1依赖自我打分，但若裁判审美偏离，需Loop 2解决。使用包含人类专家标注 (Human-Annotated) 的数据集训练模型评估能力。

分数对齐奖励 (Score Alignment Reward)：此循环奖励取决于模型打分与人类专家打分的接近程度。

作用：持续校准模型审美标准，防止其在Loop 1中陷入“自我陶醉”，确保自我奖励信号的可靠性。

这两个循环交替进行，形成“左右互搏”的进化效应，打破静态奖励模型桎梏，实现闭环、可持续的自我能力提升。

JarvisEvo：智能图像编辑Agent JarvisEvo 图像编辑多模态思维链自我进化第4张

在线反思数据生成机制 (On-Policy Reflection)

JarvisEvo如何学会“从错误中学习”？团队在Stage 2训练过程中植入了自动化数据生成：

捕捉契机：当模型生成更优修图轨迹Trajectory0（得分s0）且显著高于先前某次尝试Trajectory3（得分s3）时，触发反思生成。

归因分析：调用商业大模型（如Gemini-2.5-Pro）作为“导师”，输入源图、错误修图结果O3、正确修图结果O0及用户指令。

生成反思链：“导师”生成详细分析文本（R），解释O3失败原因（如“白平衡参数过高导致偏色”），并指出正确做法。

构建样本：将包含“错误尝试 → 深刻反思 → 正确修正”的完整轨迹存入数据集Dataset_reft，用于第三阶段微调。

ArtEdit 数据集

为支撑上述训练，团队构建了ArtEdit——一个包含170K样本的双语（中/英）专业修图数据集。涵盖人像、风光、建筑、静物、夜景等10大类、37个子类的专业摄影场景。通过A2L (Agent-to-Lightroom) 协议，无缝集成Adobe Lightroom中200+个修图工具。

ArtEdit-Lr (120K)：专注于修图任务，包含完整iMCoT轨迹（推理思考、工具参数、中间图）。

ArtEdit-Eval (50K)：专注于审美评估，包含人类专家对图像质量和指令遵循度的打分（1-5分）。

JarvisEvo：智能图像编辑Agent JarvisEvo 图像编辑多模态思维链自我进化第5张