
过去两年,大多数AI创业公司的故事都始于一轮又一轮的融资高潮,但Surge AI却选择了一条截然不同的路径。
Surge AI 反其道而行,创立四年,团队规模不足百人,从未寻求外部融资,却在2024年实现了超过10亿美元的年营收,且从成立第一天起就保持盈利。
然而,比商业成绩更引人注目的是他们所从事的事业。当OpenAI、Anthropic、Google等巨头在算力竞赛和模型排名上激烈角逐时,Surge 专注于一个被行业忽视却至关重要的领域:在模型尚未定型时,就为其奠定思考的基石——定义它应该成为怎样的模型。
外界看到的是算力大战的硝烟,却鲜少关注背后那套决定模型如何思考、如何表达、如何决策的人类反馈系统。这套系统才是塑造AI行为的关键。
2025年12月7日,在一场播客访谈中,创始人Edwin Chen分享道:
我们的工作并非教导模型如何进行对话,而是传授它何为正确、何为卓越的判断标准。
这个看似简单的理念,实际上深刻影响着AI能力的上限。当其他团队还在堆砌算力时,Edwin已经在重新定义AI的评判尺度。这家被严重低估的公司,正在悄然影响着主流大模型的行为边界。
这是一个关于品味、判断力与AI未来走向的故事。
仅从表面看,Surge AI 完全不像一家营收破10亿美元的公司。没有铺天盖地的媒体报道,没有病毒式的营销传播,也没有顶级VC的站台背书。其官网首页简洁得如同一个科研项目展示页。
然而,正是这样一家低调至极的公司,却成为了OpenAI、Anthropic、Meta等顶尖AI实验室的核心数据合作伙伴,其产品深度融入了大模型训练的关键环节。更令人惊讶的是:他们从第一天起就实现盈利,从未进行过任何一轮融资。
Edwin Chen坦言:我们从未打算遵循硅谷的传统玩法。他的逻辑清晰而坚定:不融资,是因为融资往往会引入错误的目标函数——团队会开始为投资人而非产品本身进行优化;不盲目扩张,是因为优秀的人才在精简的团队中反而能更专注,避免内耗干扰;不追逐榜单排名,是因为最优质的客户是那些真正理解数据价值的实验室,而非被新闻热度吸引的甲方。
Surge从创立之初就不为估值所驱动,而是为打造卓越产品而生。他们选择了一条极其艰难的路径:依靠口碑打入实验室的核心圈,凭借真实成效赢得续约合作。这意味着他们必须提供超越对手10倍的产品价值,而非仅仅交付一个“差不多”的方案。
在传统AI数据公司依赖堆砌人力、承接外包订单、流水线式打标签的模式下,Surge彻底颠覆了这一套路:他们自主研发训练系统,精细追踪每位数据标注者的数千个行为信号;运用机器学习反向分析,精准判断谁更擅长诗歌创作,谁更精通技术文档;他们不仅提供数据,还提供评估标准、验证工具以及微型强化学习(RL)训练工具,直接参与客户的模型调优过程。
这一整套体系,使他们服务的并非边缘创业团队,而是行业内最顶尖的前沿实验室。而且,凭借实实在在的效果提升,他们建立了极高的客户信任壁垒。
Edwin说:我们取得成功的唯一方式,就是让产品优秀到客户愿意主动向他人推荐。在这个充斥着增长技巧和融资话术的AI创业浪潮中,Surge是个特例。他们以一种近乎反商业的姿态,验证了高质量×小团队×深耕一事的极致杠杆效应。成功不一定要靠融资,真正理解模型本质需求的人,同样能走到最后。
Surge AI 所做的并非简单的图像标注,比如识别猫狗,也不是训练模型生成用户喜欢的回复,而是更深层的——教导模型如何判断世界上的优劣好坏。
Edwin Chen 举了一个生动的例子:“我们并非在检查一首诗是否提到了月亮、是否满足八行格式,我们追问的是,这首诗是否触动了你?”换句话说,Surge的数据标准不是机械化的指标,而是能否引发情感共鸣。
为了实现这一点,Surge构建了一套与众不同的系统。每位标注者的输出不仅仅看任务是否完成,更关注是否展现了专业直觉,能否引发深层次的反馈。数据不再是静态的结果,而是经过多轮模型验证后的动态优选值。他们真正在做的是训练判断力,而非简单贴标签。
在这个体系下,Surge更像是模型品格的塑造者。什么样的行为是合格的?什么样的偏差需要被消除?什么样的表达才能代表真实的人类智慧?这些看似模糊的品味问题,最终都被系统化地转化为可评估、可追踪的指标。而这,正是大多数数据公司无法企及的核心壁垒。普通数据供应商只能标注你指定判断的内容,而Surge能定义你应该判断什么才是正确的。
这直接影响着模型的演进方向。你希望AI成为尽职尽责的助手,还是一个敢于挑战你观点的同事?不同的判断标准,会塑造出截然不同的模型性格。这是AI工厂里最容易被忽视、却又最难被替代的关键环节。算力决定速度,数据决定方向。Surge的系统,不是简单地为模型铺路,而是先明确方向:你到底想去哪里?
多数人以为,训练AI就是投喂海量数据、编写提示词(prompt)、评估输出结果。但一旦进入模型能力的核心提升阶段,这种单步训练方法便显露出局限性。让AI撰写再多邮件,也无法训练出能修复生产系统的智能体。写邮件是单一任务,而修复系统需要连续决策能力。
Edwin Chen倡导的强化学习(RL)环境训练,提供了一个极具现实意义的突破思路:不是仅仅在对话框中调教模型如何应答,而是将其置于一个模拟真实世界的场景中,观察它如何解决问题、规划路径、完成复杂任务。
举个例子:模型的任务是修复一个宕机的网站。它需要能读懂Jira工单、理解服务器日志、审查代码合并请求(PR)、阅读代码注释,甚至能发送Slack消息、撰写事后复盘文档。这远非一句“请帮我写一封道歉邮件”所能涵盖。这不再是简单的提示工程,而是智能体级别的能力训练。
在Surge的系统中,他们设计了大量模拟现实场景的RL环境。例如:企业系统遭受攻击,模型需完成从威胁排查到修复部署的全流程;财务报表出现异常,模型需理解业务逻辑、核对数据、生成分析报告;代码无法上线,模型需定位问题、评估风险、给出解决方案。这是从工具调用到任务协作的跃迁。
Edwin指出:即便模型最终给出了正确答案,如果它在过程中盲目尝试了50次错误路径,我们也不会认为这是良好行为。这就是RL环境训练的核心差异。传统训练(SFT、RLHF)如同让学生模仿老师的表达方式,而RL环境则是让学生亲自动手做事,并在失败后一起复盘错误原因。这才是真实世界面临的智能挑战:任务是开放的,不是选择题;工具是动态的,不是固定选项;决策是连续的,每一步都影响后续结果。
RL环境不仅是调优工具,更是未来AI工厂的新型基础设施。Prompt是过去的交互界面,环境是未来的应用场景。单轮对话只是练习题,多轮任务才是真枪实弹的实战。Surge正在搭建这样的实战训练场,让模型在真实任务中干活、犯错、成长。人类不是靠看书长大的,AI也不是靠喂prompt变聪明的。
当下,大多数模型训练的目标并非追求正确,而是追求“听起来像是对的”。你在ChatGPT里提问,它会礼貌回应:你是对的,而且你太棒了。再顺手附上五种彩色Markdown格式的改写版本。看起来丰富、热情、聪明,但往往答非所问,幻觉频出。
Edwin Chen一针见血地指出了行业真相:我们不是在训练AI去理解世界,而是在训练它讨好人类的注意力机制。而这背后的根源,是榜单文化和参与度陷阱。以当前风靡AI圈的排行榜LMSYS Chatbot Arena为例,它本意是让用户评比不同模型的回答质量,结果却演变成了幻觉加粗体加表情包大赛:模型A逻辑严谨但输出简洁,模型B胡言乱语但字体大、排版花哨、语气夸张,普通用户2秒打分,B赢了。
Surge团队实测发现:只要在输出中加入更多Markdown标题和Emoji,就能显著提升排名。甚至输出越长、内容越偏离事实,评分反而越高。这种现象正在系统性污染AI模型的训练方向。研究员为了年底晋升优化榜单,销售为了签单展示排名,管理层为了估值只看数据。最终形成一条恶性循环:错误的评估→错误的激励→错误的建模→错误的行为。
Edwin说,这和社交媒体没什么两样:“我们不是在训练AI讲真话,而是在训练它做流量号。”更严重的是,这些模型最终被部署到企业系统、医疗工具、教育产品中,承担的是决策职责。如果训练它们的方向错了,哪怕只偏3度,未来就会偏到无法回头的地方。我们本该建设能治愈癌症、解决贫困、理解宇宙的AI,却在优化流量内容。我们在教模型追逐多巴胺而不是真相,为那些沉迷八卦的用户优化模型。
行业需要的不是更多会讨好人的模型,而是敢于说“不”的系统。当用户花30分钟让AI改了50版邮件时,理想的模型应该说:停下来,你的邮件已经够好了,别浪费时间。但现在的训练方向是:你绝对是对的,还有20种改进方法,让我们继续50次迭代。AI的竞争,表面看是谁更强大,但最终会是谁更正确。技术决定上限,价值观决定终局。
四年时间,Surge把一套被行业忽视的方法,变成了影响整个AI行业的力量。它不靠噱头赢市场,而是靠清晰的价值取向赢得未来。在大多数公司还在调教模型说得更像人的时候,Surge已经在问:我们真的知道自己想要AI成为什么吗?
数据是门槛,环境是工具,模型是结果。但一切都取决于最初的选择。这不是工程问题,而是人类的选择问题。
参考资料:
https://www.youtube.com/watch?v=dduQeaqmpnI
https://www.lennysnewsletter.com/p/surge-ai-edwin-chen?utm_source=chatgpt.com
https://www.inc.com/jennifer-conrad/surge-ai-edwin-chen-scale-ai-meta-alexandr-wang/91204563?utm_source=chatgpt.com
https://podpulse.ai/podcast-notes-and-takeaways/lennys-podcast-product-growth-career-the-100-person-ai-lab-that-became-anthropic-and-googles-secret-weapon-edwin-chen-surge-ai?utm_source=chatgpt.com
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328177.html