当前位置：首页 > 科技资讯 > 正文

JarvisEvo：像人类设计师一样修图，突破AI创作新纪元

从照片到艺术，只需一句话！比专业软件简单，比AI修图更精准！

腾讯混元携手厦门大学，隆重推出JarvisEvo——一个图像编辑智能体，模拟人类专家设计师，通过迭代编辑、视觉感知、自我评估和自我反思来“p图”。

JarvisEvo：像人类设计师一样修图，突破AI创作新纪元 JarvisEvo 图像编辑 AI创作持续优化第1张

“像专家一样思考，像工匠一样打磨”。JarvisEvo不仅能用Lightroom修图，更能“看见”修图后的变化，并自我评判好坏，从而实现无需外部奖励的自我进化。

接下来，让我们深入了解这一创新技术吧～

自我评估与修正

近年来，基于指令的图像编辑模型取得了显著进展，但在追求“专业级”修图体验时，仍面临两大核心挑战：

现有的文本思维链 (Text-only CoT) 存在信息瓶颈。模型在推理过程中“看不见”中间的修图结果，仅凭文本“脑补”假设进行下一步操作，容易导致事实性错误，无法确保每一步都符合用户意图。

在强化学习进行偏好对齐的过程中，策略模型（Policy）是动态更新的，而奖励模型（Reward Model）通常是静态的。这导致策略模型容易“钻空子”，通过欺骗奖励函数获取高分，而非真正提升修图质量和自我评估能力。

为了解决这些问题，团队推出了JarvisEvo。

打破传统“盲修”局限。JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought)机制。与纯文本推理不同，JarvisEvo在每一步编辑后都会生成新的图像，并基于视觉反馈进行下一步推理。

模型在“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”的循环中工作，确保每一步操作都精准落地。

这是JarvisEvo实现“自进化”的引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization)框架，包含两个协同进化的优化环：

编辑者优化环 (Loop 1)：模型利用自我评估分数作为内在奖励，不再依赖容易被hack的外部奖励模型。

评估者优化环 (Loop 2)：利用人类标注数据持续校准模型的评估能力，防止模型在自我打分时“自欺欺人”。

JarvisEvo具备从错误中学习的能力。在训练过程中，系统会自动将低分轨迹与高分轨迹进行对比，生成反思数据 (Reflection Data)。模型通过分析“为什么修错了”以及“如何修正”，习得强大的自我纠错能力。

传统的文本思维链（Text-only CoT）通常是“盲修”，即一次性生成所有步骤。

JarvisEvo则采用交互式多模态思维链 (iMCoT)，模拟人类设计师“观察-操作-检查”的闭环工作流。

整个推理过程分为四个核心步骤：

1、视觉感知与规划 (Perception&Planning)：模型首先分析原图（I）与用户指令（Q），生成初始的修图思路。

2、多步工具执行 (Step-by-Step Execution)：

模型生成交错的文本推理内容（C）和工具调用指令（T）。

工具沙盒 (Sandbox)：指令被发送到外部的Adobe Lightroom环境中执行，生成中间态的编辑图像（O）。

视觉反馈 (Visual Feedback)：这一点至关重要。模型会“看”到刚刚修好的图，基于最新的视觉状态决定下一步是继续调整还是修正错误。

3、自我评估 (Self-Evaluation)：修图结束后，模型会对最终结果（Ot）的美学质量和指令符合度进行自我打分（S）。

4、自我反思 (Self-Reflection)：如果结果不理想，模型会触发反思机制，分析偏差原因并尝试纠正。

JarvisEvo：像人类设计师一样修图，突破AI创作新纪元 JarvisEvo 图像编辑 AI创作持续优化第2张

为了打造这样一个全能Agent，团队设计了一套严谨的三阶段训练流水线：

...（此处保留原文中的三阶段训练流程描述）...

本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647041.html