从照片到艺术,只需一句话!比专业软件简单,比AI修图更精准!
腾讯混元携手厦门大学,隆重推出JarvisEvo——一个图像编辑智能体,模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来“p图”。
“像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能用Lightroom修图,更能“看见”修图后的变化,并自我评判好坏,从而实现无需外部奖励的自我进化。
接下来,让我们深入了解这一创新技术吧~
近年来,基于指令的图像编辑模型取得了显著进展,但在追求“专业级”修图体验时,仍面临两大核心挑战:
现有的文本思维链 (Text-only CoT) 存在信息瓶颈。模型在推理过程中“看不见”中间的修图结果,仅凭文本“脑补”假设进行下一步操作,容易导致事实性错误,无法确保每一步都符合用户意图。
在强化学习进行偏好对齐的过程中,策略模型(Policy)是动态更新的,而奖励模型(Reward Model)通常是静态的。这导致策略模型容易“钻空子”,通过欺骗奖励函数获取高分,而非真正提升修图质量和自我评估能力。
为了解决这些问题,团队推出了JarvisEvo。
打破传统“盲修”局限。JarvisEvo引入了iMCoT (Interleaved Multimodal Chain-of-Thought)机制。与纯文本推理不同,JarvisEvo在每一步编辑后都会生成新的图像,并基于视觉反馈进行下一步推理。
模型在“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”的循环中工作,确保每一步操作都精准落地。
这是JarvisEvo实现“自进化”的引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization)框架,包含两个协同进化的优化环:
编辑者优化环 (Loop 1):模型利用自我评估分数作为内在奖励,不再依赖容易被hack的外部奖励模型。
评估者优化环 (Loop 2):利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”。
JarvisEvo具备从错误中学习的能力。在训练过程中,系统会自动将低分轨迹与高分轨迹进行对比,生成反思数据 (Reflection Data)。模型通过分析“为什么修错了”以及“如何修正”,习得强大的自我纠错能力。
传统的文本思维链(Text-only CoT)通常是“盲修”,即一次性生成所有步骤。
JarvisEvo则采用交互式多模态思维链 (iMCoT),模拟人类设计师“观察-操作-检查”的闭环工作流。
整个推理过程分为四个核心步骤:
1、视觉感知与规划 (Perception&Planning):模型首先分析原图(I)与用户指令(Q),生成初始的修图思路。
2、多步工具执行 (Step-by-Step Execution):
模型生成交错的文本推理内容(C)和工具调用指令(T)。
工具沙盒 (Sandbox):指令被发送到外部的Adobe Lightroom环境中执行,生成中间态的编辑图像(O)。
视觉反馈 (Visual Feedback):这一点至关重要。模型会“看”到刚刚修好的图,基于最新的视觉状态决定下一步是继续调整还是修正错误。
3、自我评估 (Self-Evaluation):修图结束后,模型会对最终结果(Ot)的美学质量和指令符合度进行自我打分(S)。
4、自我反思 (Self-Reflection):如果结果不理想,模型会触发反思机制,分析偏差原因并尝试纠正。
为了打造这样一个全能Agent,团队设计了一套严谨的三阶段训练流水线:
...(此处保留原文中的三阶段训练流程描述)...
本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647041.html