当前位置:首页 > 科技资讯 > 正文

AI Agent的进化:从玩具到可靠工具的工程标准

AI Agent的进化:从玩具到可靠工具的工程标准 Agent 工程标准 品味 交付力 第1张

Replit CEO Amjad Masad 对当前 AI Agent 落地困境的深刻洞察,指出这类工具正处于“看似全能、实则低效”的阶段。文章强调,单纯的模型强大并不能解决输出不稳定的问题,真正的关键在于建立一套以“品味”为核心的工程标准。

过去一年,AI Agent 在演示环节的表现越来越惊艳。给它一个指令,代码自动生成,环境自动配置,产品几分钟就能上线。但真正落地时,评价往往只有一句:看着挺好,用不起来。

Replit CEO Amjad Masad 最近在一场对谈中,用“玩具”来评价今天的 Agent。看起来能干活,实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容,在业内有个统一称呼:slop(粗制滥造)。

问题不只出在模型本身。更大的问题是:没人教 Agent 什么叫“好”。

什么内容该保留,什么要删改,做到什么程度才算合格。这些判断标准,模型学不到。所以 Masad 的答案不是换更大的模型,而是两个字:品味(taste)。

第一节|多数 Agent 都翻车,不是不聪明,是太通用

Amjad Masad 说:“当前,除了代码和客服,其他 Agent 基本都不靠谱。”不是因为模型能力不够,而是这些 Agent 本质上是通用输出机器。你给一句模糊提示,它就随便输出一个看起来还行的通用答案。

所有生成的内容看起来都差不多。UI 排布雷同,语言模板僵硬,代码风格也像流水线产品。

第二节|品味不是审美,是标准

Amjad 说:“你不能指望基础模型自带品味。”这里的“品味”,不是设计风格,也不是代码偏好,而是一套让模型交出可用结果的机制。

如果只用模型的默认输出,结果只会是一堆雷同的内容。那 Replit 怎么做的?

第一步,给模型定规矩。

第二步,限定答案范围。

第三步,舍得花资源。

第三节|Replit 的 Agent 为什么能交付?

有了标准,还得有人盯着。

Replit 最大的不同,是它让 Agent 具备了自测能力。给每个编码 Agent 配一个测试 Agent。测试 Agent 会像用户一样操作,看页面能不能正常跑、会不会崩溃。

第四节|模型人人都能买,基础设施买不到

很多人以为,Agent 的效果好不好,关键在用什么模型。但 Amjad 认为:模型大家都能买,差别从来不在这。

真正的差距,在于有没有能力把模型用得对。

结语|分水岭不是 AGI,是工程能力

模型越来越强,Agent 却不好用。不是技术不行,而是没人负责交付。

这套能力,说到底就两个字:品味。它不是风格,而是底线。不是灵感,而是规矩。