
Replit首席执行官Amjad Masad针对当前AI Agent落地难题提出了深刻见解,他认为这类工具目前仍处在“看似全能、实则低效”的玩具阶段。文章强调,单纯依赖更强大的模型无法解决输出不稳定的问题,真正的突破口在于构建一套以“品味”为核心的工程标准。这里所说的“品味”并非感性上的审美,而是通过预设业务框架、限定可信数据范围以及建立自我测试机制,将模糊的生成内容转化为可靠的交付成果。作者通过剖析Replit的实践,揭示了底层基础设施和闭环验证流程在Agent演进过程中的关键作用。最终,AI的竞争力将从单纯的模型能力转向严谨的工程交付能力。
近一年来,AI Agent在演示环境中的表现越发令人惊叹。
只需下达一个指令,代码便能自动生成,环境自动配置,产品在几分钟内即可上线。整个过程行云流水,让人感觉这项技术已足以取代整个团队。
然而,当真正投入实际应用时,得到的反馈往往是:看起来不错,但无法真正使用。
Replit CEO Amjad Masad最近在一次访谈中,用一个词来形容当前的Agent:玩具(toys)。看似能干活,实则不稳定,做事靠运气,生成的内容千篇一律。这类能生成但不可靠的内容,在业内被统称为slop(粗制滥造)。
问题并不仅仅出在模型本身。更大的症结在于:没人教导Agent什么是“好”。
哪些内容该保留
哪些该删改
做到什么程度才算合格。
这些判断标准,模型无法习得。因此,Masad的解决方案并非更换更大的模型,而是两个字:品味(taste)。
要让平台更具主张,让Agent理解何为优良标准。
Amjad Masad表示:
当前,除代码和客服领域外,其他Agent基本都不可靠。
这并非因为模型能力不足,而是因为这些Agent本质上是通用输出机器。你给一个模糊的提示,它便随意输出一个看似合理的通用答案。表面上像是在完成任务,实则只是勉强交差。
所有生成的内容看起来大同小异。UI布局雷同,语言模板僵化,代码风格如同流水线产品。
具体而言:
你让它做一个营销活动规划,它会输出一个看似可用的Excel,但不懂品牌语调,也不了解预算限制;
你让它编写代码,它给你一段能运行的函数,却未考虑企业自身的数据库结构;
它能查资料、能回复、能填表,但始终不清楚怎样才算完成得好。
它缺乏的不是智能,而是判断标准。
在企业环境中,事情往往不那么标准化。数据混乱,流程断裂,权限分散。Agent真正的难点,不在于生成内容,而在于在复杂局面中做出可靠判断。
因此Amjad强调,
信息检索只是聊天机器人,行动才是真正的Agent。
也就是说,仅会查找信息不算Agent,必须能做决定、能判断结果。
大多数Agent一旦投入生产环境便崩溃,不是因为它太笨,而是因为它过于通用。没有判断力,也没有判断边界。你让它做决定,它只会给出模糊的中等答案。
你以为找了个助理,结果来的是个不会拒绝的临时工。
Amjad说:你不能指望基础模型自带品味。
这里的“品味”,并非设计风格或代码偏好,而是一套让模型交出可用结果的机制。
如果只用模型的默认输出,结果只会是一堆雷同的内容,与市面上其他产品毫无区别。
那么Replit是怎么做的?
第一步,给模型定规矩。
Replit为不同类型的App准备了提示模板。做电商的用电商的结构,做内容的用内容的逻辑。不是让模型自由发挥,而是事先定好框架,使生成内容符合业务需求。
第二步,限定答案范围。
它不在整个互联网上随意搜索资料,而是从自己整理好的内容库中查找。使用的都是提前分类标记过的数据。这样至少能保证每次调用的信息可信。
第三步,舍得花资源。
Replit选择了不走捷径。每次生成内容的长度更长,查询更深,结构更细。哪怕过程更慢,成本更高。Amjad的态度很明确:App贵一点、慢一点,但能用。
这套做法背后的逻辑很简单:
生成内容,不等于完成任务。
他要的是结果能被真实用户用起来,而不是模型做了什么。
因此,他对“品味”的定义,不是一种感觉,而是三个实际动作:
先明确什么算完成
只让模型在可靠范围内找答案
愿意为质量多投入成本
如果说大模型是原材料,Replit给它加了三层把关:标准、范围、成本。把那些“差不多就行”的模糊输出,一层层卡住。
这就是Amjad所说的品味:不是审美,而是让结果有标准、可追溯、有保障。
有了标准,还得有人监督。
一个Agent能不能用,核心不在于它能否生成内容,而在于它能否检查自己做得对不对。但大多数Agent做不到这一点。
大多数Agent只负责生成,不负责审视结果。它生成完代码、文档或操作指令,就直接停止。至于能否执行、有无问题,它自己并不知道。
Replit最大的不同,是它让Agent具备了自测能力。
怎么做的?Amjad讲了一个简单但有效的办法:给每个编码Agent配一个测试Agent。前者写,后者查。测试Agent会像用户一样打开网页、点击按钮、读取输出。不是看代码,而是实际操作一遍,看页面能否正常跑、会不会崩溃、有没有完成任务。
如果发现问题,它会把反馈传给主Agent。主Agent修改后再测,直到通过。
这套机制不靠聪明,靠的是流程。
而且Replit用的是两个不同模型。一个写,一个测。为什么?因为一个模型容易自圆其说,两个模型互相挑战,才更可能发现问题。
这就是Replit真正能用的原因:它不是生成一次,而是完成一轮。从“写得出”到“用得上”,中间差了至少一层验证。
Amjad强调:
“我们是唯一一个让Agent测试自己工作成果的编码平台。”
更关键的是:Replit给了用户一个回滚机制。如果整个流程出错,点一下就能回到任务开始前的状态。代码、数据库、界面,全都恢复。
为什么这么重要?
因为Agent的风险不在于它不会写,而在于它出错时没人知道。如果没有验证机制,也没有回退手段,它可能一边出错,一边还在自信地推进任务。
所以Amjad把验收机制做成了Agent交付链的一部分。你不是在试一个Agent,而是在用一整条“写—测—改—通过—上线”的闭环。
关键不是能做,而是能做对。
很多人以为,Agent的效果好不好,关键在用什么模型。
Replit也接了最强的模型:Claude做主任务,Gemini 3搜代码,GPT-5辅助对话。但Amjad认为:模型大家都能买,差别从来不在这。
真正的差距,在于有没有能力把模型用得对。
这就要讲到一个容易被忽视的事实:Replit本质上不是一家AI公司,而是一家基础设施(AI Infra)公司。
举个例子,你在Replit的Agent里让它写一个App,它会在几秒钟里开启一整套工作环境:
启动一个新的沙盒,让模型在里头自由写代码、搭接口、连数据库
写完后,测试Agent会复制一份环境来点按钮、验证结果
如果失败,这个环境可以一键回到最初,不留痕迹
这套流程背后,其实非常复杂:
秒级生成虚拟环境
数据库读写隔离,避免测试阶段误删真实数据
操作系统级的文件追踪和还原机制
而这些,大多数Agent工具都不具备。
Amjad特别提到:他们用了四年打磨底层文件系统,才让环境支持这么快的创建、回滚、合并。这背后是Copy-on-write(写时复制)架构。每次操作都是带记忆的副本,随时可以清理或还原。
这套能力不是模型能学出来的,也不是提示词能写出来的,必须靠工程团队一点点构建。
这就是基础设施的价值。
一套真正能用的Agent,必须靠这些东西托着:模型有分工、验证有环境、产品从一开始就为交付而设计。
Replit不靠模型差异取胜,靠的是先把基础设施搭好了。别人还在讨论怎么让Agent输出内容,Replit的Agent已经完成了写、测、改、复原、上线这整套流程。
差的不是模型,是工程。
模型越来越强,Agent却不好用。
不是技术不行,而是没人负责交付。
Replit没靠新模型出圈,而是靠写完要测、测完能回退、生成有标准。
Amjad说不能等路线图,因为你得提前把基础打好,才能抓住模型突破的那一刻。
这套能力,说到底就两个字:品味。
它不是风格,而是底线。不是灵感,而是规矩。
原文链接:
https://www.youtube.com/watch?v=7i7A-Y4EMgQ
https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of
https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com
https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com
来源:官方媒体/网络新闻
本文由主机测评网于2026-03-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260331979.html