当前位置:首页 > 科技资讯 > 正文

JarvisEvo:像人类设计师一样修图,突破AI创作新纪元

从照片到艺术,只需一句话!比专业软件简单,比AI修图更精准!

腾讯混元携手厦门大学,隆重推出JarvisEvo——一个图像编辑智能体,模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来“p图”。

JarvisEvo:像人类设计师一样修图,突破AI创作新纪元 JarvisEvo  图像编辑 AI创作 持续优化 第1张

“像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能用Lightroom修图,更能“看见”修图后的变化,并自我评判好坏,从而实现无需外部奖励的自我进化。

接下来,让我们深入了解这一创新技术吧~

自我评估与修正

研究背景与动机

近年来,基于指令的图像编辑模型取得了显著进展,但在追求“专业级”修图体验时,仍面临两大核心挑战:

  1. 指令幻觉 (Instruction Hallucination):

现有的文本思维链 (Text-only CoT) 存在信息瓶颈。模型在推理过程中“看不见”中间的修图结果,仅凭文本“脑补”假设进行下一步操作,容易导致事实性错误,无法确保每一步都符合用户意图。

  1. 奖励黑客 (Reward Hacking):

在强化学习进行偏好对齐的过程中,策略模型(Policy)是动态更新的,而奖励模型(Reward Model)通常是静态的。这导致策略模型容易“钻空子”,通过欺骗奖励函数获取高分,而非真正提升修图质量和自我评估能力。

为了解决这些问题,团队推出了JarvisEvo。

iMCoT:交互式多模态思维链

打破传统“盲修”局限。JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought)机制。与纯文本推理不同,JarvisEvo在每一步编辑后都会生成新的图像,并基于视觉反馈进行下一步推理。

模型在“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”的循环中工作,确保每一步操作都精准落地。

SEPO:协同编辑-评估策略优化

这是JarvisEvo实现“自进化”的引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization)框架,包含两个协同进化的优化环:

编辑者优化环 (Loop 1):模型利用自我评估分数作为内在奖励,不再依赖容易被hack的外部奖励模型。

评估者优化环 (Loop 2):利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”。

在线反思与自我修正

JarvisEvo具备从错误中学习的能力。在训练过程中,系统会自动将低分轨迹与高分轨迹进行对比,生成反思数据 (Reflection Data)。模型通过分析“为什么修错了”以及“如何修正”,习得强大的自我纠错能力。

像人类一样“边看边修”

JarvisEvo系统架构

传统的文本思维链(Text-only CoT)通常是“盲修”,即一次性生成所有步骤。

JarvisEvo则采用交互式多模态思维链 (iMCoT),模拟人类设计师“观察-操作-检查”的闭环工作流。

整个推理过程分为四个核心步骤:

1、视觉感知与规划 (Perception&Planning):模型首先分析原图(I)与用户指令(Q),生成初始的修图思路。

2、多步工具执行 (Step-by-Step Execution):

模型生成交错的文本推理内容(C)和工具调用指令(T)。

工具沙盒 (Sandbox):指令被发送到外部的Adobe Lightroom环境中执行,生成中间态的编辑图像(O)。

视觉反馈 (Visual Feedback):这一点至关重要。模型会“看”到刚刚修好的图,基于最新的视觉状态决定下一步是继续调整还是修正错误。

3、自我评估 (Self-Evaluation):修图结束后,模型会对最终结果(Ot)的美学质量和指令符合度进行自我打分(S)。

4、自我反思 (Self-Reflection):如果结果不理想,模型会触发反思机制,分析偏差原因并尝试纠正。

JarvisEvo:像人类设计师一样修图,突破AI创作新纪元 JarvisEvo  图像编辑 AI创作 持续优化 第2张

三阶段的训练框架

为了打造这样一个全能Agent,团队设计了一套严谨的三阶段训练流水线:

...(此处保留原文中的三阶段训练流程描述)...

...(此处保留原文中的SEPO框架描述)...

...(此处保留原文中的在线反思数据生成机制描述)...

...(此处保留原文中的ArtEdit数据集描述)...

...(此处保留原文中的实验结果描述)...