当前位置：首页 > 科技资讯 > 正文

AI Agent的进化：从玩具到可靠工具的工程标准

AI Agent的进化：从玩具到可靠工具的工程标准 Agent 工程标准品味交付力第1张

Replit CEO Amjad Masad 对当前 AI Agent 落地困境的深刻洞察，指出这类工具正处于“看似全能、实则低效”的阶段。文章强调，单纯的模型强大并不能解决输出不稳定的问题，真正的关键在于建立一套以“品味”为核心的工程标准。

过去一年，AI Agent 在演示环节的表现越来越惊艳。给它一个指令，代码自动生成，环境自动配置，产品几分钟就能上线。但真正落地时，评价往往只有一句：看着挺好，用不起来。

Replit CEO Amjad Masad 最近在一场对谈中，用“玩具”来评价今天的 Agent。看起来能干活，实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容，在业内有个统一称呼：slop（粗制滥造）。

问题不只出在模型本身。更大的问题是：没人教 Agent 什么叫“好”。

什么内容该保留，什么要删改，做到什么程度才算合格。这些判断标准，模型学不到。所以 Masad 的答案不是换更大的模型，而是两个字：品味（taste）。

第一节｜多数 Agent 都翻车，不是不聪明，是太通用

Amjad Masad 说：“当前，除了代码和客服，其他 Agent 基本都不靠谱。”不是因为模型能力不够，而是这些 Agent 本质上是通用输出机器。你给一句模糊提示，它就随便输出一个看起来还行的通用答案。

所有生成的内容看起来都差不多。UI 排布雷同，语言模板僵硬，代码风格也像流水线产品。

Amjad 说：“你不能指望基础模型自带品味。”这里的“品味”，不是设计风格，也不是代码偏好，而是一套让模型交出可用结果的机制。

如果只用模型的默认输出，结果只会是一堆雷同的内容。那 Replit 怎么做的？

第一步，给模型定规矩。

第二步，限定答案范围。

第三步，舍得花资源。

有了标准，还得有人盯着。

Replit 最大的不同，是它让 Agent 具备了自测能力。给每个编码 Agent 配一个测试 Agent。测试 Agent 会像用户一样操作，看页面能不能正常跑、会不会崩溃。

很多人以为，Agent 的效果好不好，关键在用什么模型。但 Amjad 认为：模型大家都能买，差别从来不在这。

真正的差距，在于有没有能力把模型用得对。

模型越来越强，Agent 却不好用。不是技术不行，而是没人负责交付。

这套能力，说到底就两个字：品味。它不是风格，而是底线。不是灵感，而是规矩。

本文由主机测评网于2026-06-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646791.html