无论是保存多年的老旧照片、人工智能生成的低分辨率图像,还是遥感或医学领域的专业影像,如今都能借助先进技术智能修复并提升至4K超高清分辨率。
提升图像清晰度一直是计算机视觉领域的经典挑战,面对噪声、模糊、压缩损伤等复杂退化问题,以及AI合成、遥感、生物医学等多样领域图像时,传统单一模型往往难以应对。
由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent,能够针对不同类型图像及需求进行智能修复并放大到4K分辨率,实现卓越的视觉感知效果。该成果已被NeurIPS 2025接收。
传统图像放大模型通常在特定类型图片上表现优异,但遇到真实世界中的复杂模糊、AI生成图的伪影,或是遥感、医学等专业图像时,效果大打折扣。
而将分辨率放大到4K级别,更是对细节重建和纹理真实度提出了极高要求。
从用户视角出发,一个既通用又可灵活控制的框架来处理各类图像提升分辨率的需求是理想选择。4KAgent正是在这些现实挑战与需求背景下应运而生。
基于多智能体架构,4KAgent能够为每张图像定制化地规划通往4K分辨率的路径。
△
感知智能体(Perception Agent)负责分析图像内容及退化信息,为复原智能体提供执行蓝图。
首先,图像分析器(Image Analyzer)调用多种图像质量评估工具对输入图像进行评测,得到多个感知质量指标QI=(Q1,Q2,…)。
接着,退化推理(Degradation Reasoning)利用视觉语言模型(VLM)基于输入图像及感知质量指标QI进行推理,识别图像中存在的退化信息DI及初步复原任务列表AI′等,并配置放大倍数(Upscaling Factor Configuration):计算图像放大到4K分辨率所需倍数s,并在初步复原任务列表AI′中添加对应超分辨率任务,形成最终复原任务列表AI。
最后,任务规划(Task Planning)基于前述信息,利用大语言模型(LLM)或视觉语言模型(VLM)为输入图像制定复原计划(Restoration Plan)PI:明确复原任务的执行顺序。
复原智能体(Restoration Agent)在执行复原计划PI的每一步任务时,采用“执行—反思—回滚(execution–reflection–rollback)”机制:
在执行(Execution)阶段,4KAgent按序执行PI中的复原任务。系统支持九种不同复原任务,并集成对应任务中的先进模型构建工具栏。4KAgent调用工具栏中不同模型生成多张候选复原图像。
△
在反思(Reflection)阶段,复原智能体基于质量评分QS评估候选复原图像,选出得分最高者作为输出。4KAgent设计的QS综合了无参考图像质量指标(NIQE、MANIQA、MUSIQ、CLIPIQA)及人类偏好分数HPSv2。整体流程可视为质量驱动的专家混合系统Q-MoE(Quality-driven MoE):输入图像经多个复原专家生成候选,再由反思模块优选最佳结果。
当选中图像的质量评分低于阈值η时,将触发回滚(Rollback)机制:4KAgent生成上下文信息传递给感知智能体以生成新复原计划PIadj,并为当前步骤分配新复原任务。
△
此外,4KAgent集成人脸修复模块(Face Restoration Pipeline):检测并裁剪输入图像中的人脸,对每张人脸应用不同修复方法得到多个结果,基于设计的人脸质量评分Qsf选取质量最高的人脸,将其贴回原始图像。
4KAgent还设置Fast4K模式以控制运行时间。具体而言,当图像尺寸超过预设阈值St时,系统从工具栏中移除推理耗时较长的方法以加速处理。
为应对不同图像复原场景,4KAgent设计配置模块(Profile Module),提供可调使用偏好(如优先感知质量或保真度、是否启用人脸修复等),使系统能适配各类图像复原需求且无需额外训练。
总体而言,4KAgent将“分析、决策”与“执行、反思”分工于不同智能体,并通过配置模块灵活适应复原需求,实现了通用4K超分能力。
4KAgent在11种不同图像超分辨率任务的26个基准测试集上进行了广泛评估,涵盖经典图像超分、真实世界图像超分、多重退化图像复原、大尺度图像超分(16倍)等,及其他领域如AIGC图像、遥感图像、生物医学图像超分任务。
在经典图像超分(Classical Image SR)和真实世界图像超分(Real-World Image SR)任务中,4KAgent生成图像呈现更丰富、精准的细节,如树皮条纹、鹿角结构、羽绒服纹理及数字清晰度。
△
△
在具挑战性的16倍放大任务中,4KAgent生成高细节度且逼真纹理,如岩石与草丛纹理,人脸图片中的发丝、眉毛纹理和眼睛细节。
△
此外,研究构建了DIV4K-50测试集(将50张4096×4096高质量图像下采样至256×256并加入复合退化),用于检验从256×256→4096×4096的复原超分能力。在此场景下,4KAgent始终能重建更精细、自然的细节,如人脸细节、毛发纹理等。
△
4KAgent是一个可控且通用的图像复原及4K超分辨率AI智能体系统,旨在将各类图像提升至4K分辨率。该系统在多个领域提升图像复原质量,涵盖自然场景、人像、AI生成内容,以及遥感、显微镜和医学影像等专业科学模态。在标准基准测试和专用数据集上的全面评估显示,4KAgent无需特定领域再训练,即可在各场景下达到优异复原表现,彰显其强大泛化能力,为消费级、商业级及科研级应用中的通用部署提供实践价值。
项目主页:https://4kagent.github.io/
代码下载:https://github.com/taco-group/4KAgent
文章链接:https://arxiv.org/pdf/2507.07105DIV4K-50
数据集:https://huggingface.co/datasets/YSZuo/DIV4K-50
作者及研究机构:
第一作者:左育莘(Yushen Zuo),德克萨斯A&M大学(Texas A&M University)研究实习生
通讯作者:涂正中(Zhengzhong Tu),德克萨斯A&M大学(Texas A&M University)助理教授
研究机构:德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs、加州大学Merced分校
本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120801.html