当前位置：首页 > 科技资讯 > 正文

AI Agent落地困局：从“玩具”到“工具”，Replit CEO谈“品味”与工程的分水岭

主机测评网
科技资讯
2026-03-18
817

AI Agent落地困局：从“玩具”到“工具”，Replit CEO谈“品味”与工程的分水岭 Agent 品味标准工程交付 Replit 第1张

Replit首席执行官Amjad Masad针对当前AI Agent落地难题提出了深刻见解，他认为这类工具目前仍处在“看似全能、实则低效”的玩具阶段。文章强调，单纯依赖更强大的模型无法解决输出不稳定的问题，真正的突破口在于构建一套以“品味”为核心的工程标准。这里所说的“品味”并非感性上的审美，而是通过预设业务框架、限定可信数据范围以及建立自我测试机制，将模糊的生成内容转化为可靠的交付成果。作者通过剖析Replit的实践，揭示了底层基础设施和闭环验证流程在Agent演进过程中的关键作用。最终，AI的竞争力将从单纯的模型能力转向严谨的工程交付能力。

近一年来，AI Agent在演示环境中的表现越发令人惊叹。

只需下达一个指令，代码便能自动生成，环境自动配置，产品在几分钟内即可上线。整个过程行云流水，让人感觉这项技术已足以取代整个团队。

然而，当真正投入实际应用时，得到的反馈往往是：看起来不错，但无法真正使用。

Replit CEO Amjad Masad最近在一次访谈中，用一个词来形容当前的Agent：玩具（toys）。看似能干活，实则不稳定，做事靠运气，生成的内容千篇一律。这类能生成但不可靠的内容，在业内被统称为slop（粗制滥造）。

问题并不仅仅出在模型本身。更大的症结在于：没人教导Agent什么是“好”。

哪些内容该保留

哪些该删改

做到什么程度才算合格。

这些判断标准，模型无法习得。因此，Masad的解决方案并非更换更大的模型，而是两个字：品味（taste）。

要让平台更具主张，让Agent理解何为优良标准。

第一节｜多数Agent翻车，不是不够聪明，而是过于通用

Amjad Masad表示：

当前，除代码和客服领域外，其他Agent基本都不可靠。

这并非因为模型能力不足，而是因为这些Agent本质上是通用输出机器。你给一个模糊的提示，它便随意输出一个看似合理的通用答案。表面上像是在完成任务，实则只是勉强交差。

所有生成的内容看起来大同小异。UI布局雷同，语言模板僵化，代码风格如同流水线产品。

具体而言：

你让它做一个营销活动规划，它会输出一个看似可用的Excel，但不懂品牌语调，也不了解预算限制；

你让它编写代码，它给你一段能运行的函数，却未考虑企业自身的数据库结构；

它能查资料、能回复、能填表，但始终不清楚怎样才算完成得好。

它缺乏的不是智能，而是判断标准。

在企业环境中，事情往往不那么标准化。数据混乱，流程断裂，权限分散。Agent真正的难点，不在于生成内容，而在于在复杂局面中做出可靠判断。

因此Amjad强调，

信息检索只是聊天机器人，行动才是真正的Agent。

也就是说，仅会查找信息不算Agent，必须能做决定、能判断结果。

大多数Agent一旦投入生产环境便崩溃，不是因为它太笨，而是因为它过于通用。没有判断力，也没有判断边界。你让它做决定，它只会给出模糊的中等答案。

你以为找了个助理，结果来的是个不会拒绝的临时工。

第二节｜品味不是审美，而是标准

Amjad说：你不能指望基础模型自带品味。

这里的“品味”，并非设计风格或代码偏好，而是一套让模型交出可用结果的机制。

如果只用模型的默认输出，结果只会是一堆雷同的内容，与市面上其他产品毫无区别。

那么Replit是怎么做的？

第一步，给模型定规矩。

Replit为不同类型的App准备了提示模板。做电商的用电商的结构，做内容的用内容的逻辑。不是让模型自由发挥，而是事先定好框架，使生成内容符合业务需求。

第二步，限定答案范围。

它不在整个互联网上随意搜索资料，而是从自己整理好的内容库中查找。使用的都是提前分类标记过的数据。这样至少能保证每次调用的信息可信。

第三步，舍得花资源。

Replit选择了不走捷径。每次生成内容的长度更长，查询更深，结构更细。哪怕过程更慢，成本更高。Amjad的态度很明确：App贵一点、慢一点，但能用。

这套做法背后的逻辑很简单：

生成内容，不等于完成任务。

他要的是结果能被真实用户用起来，而不是模型做了什么。

因此，他对“品味”的定义，不是一种感觉，而是三个实际动作：

先明确什么算完成

只让模型在可靠范围内找答案

愿意为质量多投入成本

如果说大模型是原材料，Replit给它加了三层把关：标准、范围、成本。把那些“差不多就行”的模糊输出，一层层卡住。

这就是Amjad所说的品味：不是审美，而是让结果有标准、可追溯、有保障。

第三节｜Replit的Agent为何能交付？

有了标准，还得有人监督。

一个Agent能不能用，核心不在于它能否生成内容，而在于它能否检查自己做得对不对。但大多数Agent做不到这一点。

大多数Agent只负责生成，不负责审视结果。它生成完代码、文档或操作指令，就直接停止。至于能否执行、有无问题，它自己并不知道。

Replit最大的不同，是它让Agent具备了自测能力。

怎么做的？Amjad讲了一个简单但有效的办法：给每个编码Agent配一个测试Agent。前者写，后者查。测试Agent会像用户一样打开网页、点击按钮、读取输出。不是看代码，而是实际操作一遍，看页面能否正常跑、会不会崩溃、有没有完成任务。

如果发现问题，它会把反馈传给主Agent。主Agent修改后再测，直到通过。

这套机制不靠聪明，靠的是流程。

而且Replit用的是两个不同模型。一个写，一个测。为什么？因为一个模型容易自圆其说，两个模型互相挑战，才更可能发现问题。

这就是Replit真正能用的原因：它不是生成一次，而是完成一轮。从“写得出”到“用得上”，中间差了至少一层验证。

Amjad强调：

“我们是唯一一个让Agent测试自己工作成果的编码平台。”

更关键的是：Replit给了用户一个回滚机制。如果整个流程出错，点一下就能回到任务开始前的状态。代码、数据库、界面，全都恢复。

为什么这么重要？

因为Agent的风险不在于它不会写，而在于它出错时没人知道。如果没有验证机制，也没有回退手段，它可能一边出错，一边还在自信地推进任务。

所以Amjad把验收机制做成了Agent交付链的一部分。你不是在试一个Agent，而是在用一整条“写—测—改—通过—上线”的闭环。

关键不是能做，而是能做对。

第四节｜模型人人都能买，基础设施买不到

很多人以为，Agent的效果好不好，关键在用什么模型。

Replit也接了最强的模型：Claude做主任务，Gemini 3搜代码，GPT-5辅助对话。但Amjad认为：模型大家都能买，差别从来不在这。

真正的差距，在于有没有能力把模型用得对。

这就要讲到一个容易被忽视的事实：Replit本质上不是一家AI公司，而是一家基础设施（AI Infra）公司。

举个例子，你在Replit的Agent里让它写一个App，它会在几秒钟里开启一整套工作环境：

启动一个新的沙盒，让模型在里头自由写代码、搭接口、连数据库

写完后，测试Agent会复制一份环境来点按钮、验证结果

如果失败，这个环境可以一键回到最初，不留痕迹

这套流程背后，其实非常复杂：

秒级生成虚拟环境

数据库读写隔离，避免测试阶段误删真实数据

操作系统级的文件追踪和还原机制

而这些，大多数Agent工具都不具备。

Amjad特别提到：他们用了四年打磨底层文件系统，才让环境支持这么快的创建、回滚、合并。这背后是Copy-on-write（写时复制）架构。每次操作都是带记忆的副本，随时可以清理或还原。

这套能力不是模型能学出来的，也不是提示词能写出来的，必须靠工程团队一点点构建。

这就是基础设施的价值。

一套真正能用的Agent，必须靠这些东西托着：模型有分工、验证有环境、产品从一开始就为交付而设计。

Replit不靠模型差异取胜，靠的是先把基础设施搭好了。别人还在讨论怎么让Agent输出内容，Replit的Agent已经完成了写、测、改、复原、上线这整套流程。

差的不是模型，是工程。

结语｜分水岭不是AGI，是工程能力

模型越来越强，Agent却不好用。

不是技术不行，而是没人负责交付。

Replit没靠新模型出圈，而是靠写完要测、测完能回退、生成有标准。

Amjad说不能等路线图，因为你得提前把基础打好，才能抓住模型突破的那一刻。

这套能力，说到底就两个字：品味。

它不是风格，而是底线。不是灵感，而是规矩。

原文链接：

https://www.youtube.com/watch?v=7i7A-Y4EMgQ

https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of

https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com

https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com

来源：官方媒体/网络新闻

阿里云服务器高防服务器性价比vps

本文由主机测评网于2026-03-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260331979.html

AI Agent落地困局：从“玩具”到“工具”，Replit CEO谈“品味”与工程的分水岭

第一节｜多数Agent翻车，不是不够聪明，而是过于通用

第二节｜品味不是审美，而是标准

第三节｜Replit的Agent为何能交付？

第四节｜模型人人都能买，基础设施买不到

结语｜分水岭不是AGI，是工程能力

Anthropic推出Cowork：AI从对话助手到数字同事的进化

鸿蒙智行2026年新车大幕拉开：十余款新车密集投放，高端市场再添变数

AI Agent落地困局：从“玩具”到“工具”，Replit CEO谈“品味”与工程的分水岭

第一节｜多数Agent翻车，不是不够聪明，而是过于通用

第二节｜品味不是审美，而是标准

第三节｜Replit的Agent为何能交付？

第四节｜模型人人都能买，基础设施买不到

结语｜分水岭不是AGI，是工程能力

Anthropic推出Cowork：AI从对话助手到数字同事的进化

鸿蒙智行2026年新车大幕拉开：十余款新车密集投放，高端市场再添变数

相关文章