当Meta以143亿美元巨资入股竞争对手Scale AI时,一家由前谷歌工程师创立、员工规模仅为对手十分之一的公司,已悄然实现年营收突破10亿美元的里程碑,且从未依赖外部投资。
在AI竞技场,聚光灯常聚焦于OpenAI、Google等发布万亿参数模型的明星。然而,决定模型“思维”与“品格”的训练数据,却如被忽视的基石。
硅谷正上演一场鲜明对比的戏剧:一边是Meta豪掷143亿美元收购数据标注公司Scale AI近半股份,使其创始人亚历山大·王成为焦点;另一边,则是低调的对手Surge AI:成立近五年未进行任何融资、过去两年几乎无新闻稿、员工仅对手十分之一,却默默实现超10亿美元营收,财务表现已超越获巨资的Scale AI。
这次故事的主角是Edwin Chen。
Surge AI创始人兼CEO Edwin Chen是一位美籍华裔,曾于麻省理工学院(MIT)研习数学与语言学。毕业后,他先后在Google、Meta Platforms(前Facebook)及Twitter等科技巨头工作,负责机器学习、人类计算与内容审核等项目。这些经历让他亲眼目睹一个严峻问题:即使资源雄厚的大公司,在将海量原始数据转化为高质量、适用于AI训练的数据时,也常因标注粗糙、质量参差而失败。
一次,他参与的项目需人工标注五万条信息流,但外包结果令他震惊——俚语、梗图、社交语境、歧义表达等“低级错误”频出,导致数据几乎无法用于高质量模型训练。这一经历让他意识到:整个行业,包括顶级公司,都严重低估了“数据质量”对AI未来的关键作用。
于是,2020年,他做出大胆决定:离开舒适工作,创立一家专注于“高质量、高复杂度、人类标注与AI训练基础设施”的公司。Surge AI由此诞生。
为保障数据质量,Surge AI构建了一套复杂的技术与筛选体系。
公司组建了名为“Surge Force”的精英标注员网络,准入门槛极高。申请者需具备专业背景,并提交5道试写题目,经资深标注员审核通过方可加入。
该网络不仅汇聚全球专业人士,还聘请斯坦福、普林斯顿和哈佛的教授参与AI训练,旨在将人类专业知识、创造力与价值观编码进数据。
更重要的是,Surge AI开发了先进的人机协同系统与算法来保障质量。系统精细追踪每位标注者的数千个行为信号,并用机器学习反向分析,以检测和对抗低质量标注行为。
他们发现,即使麻省理工学院毕业生也可能试图“欺骗”系统。因此,单纯依赖“聪明人”无法保证质量,必须依靠技术体系。
这种可靠的数据支持,为Surge AI赢得了顶尖客户群与高议价能力。
客户名单几乎囊括所有AI巨头:OpenAI、Anthropic、谷歌、微软、Meta。仅Meta生成式AI部门,2024年在Surge AI服务上的支出就超1.5亿美元。
凭借扎实技术和高门槛服务,Surge AI在成立首年即实现盈利。
在这家以惊人速度增长的公司背后,人们最好奇的往往是推动其成功的第一性原理:Surge如何构建业内最可靠的数据质量体系?为何Edwin坚持在无外部资本下将公司推向十亿美元规模?在模型能力指数级攀升的当下,数据、评估与训练环境扮演何种战略角色?
近日,Edwin做客《Lenny"s Podcast》,与Lenny展开深入对话。他以清晰逻辑与务实风格,讲述了Surge的起点、如何服务未来AI基础设施,以及为何数据公司有望成为下一个时代的“基础设施级企业”。
以下内容为InfoQ翻译整理,经编辑:
Lenny:先从你们的惊人成绩说起。许多人谈论借助AI以极少人手实现巨大规模,但你们首次将其做到“前无古人”程度。在不到4年时间达成10亿美元营收,员工仅60~70人,且无融资、无VC支持。我相信无人能做到这一点。你们真正实现了“AI时代企业的梦想”。我好奇:未来会否出现更多此类案例?AI在何处最帮你们实现杠杆效应?
Edwin: 我们去年来营收超10亿美元时,公司不足100人。我认为未来几年会出现更极端的公司,例如“每位员工贡献1亿美元营收”的情况必将发生。AI将越来越强、越高效,这一比例不可避免。
我曾在多家大科技公司工作,感觉裁掉90%的员工,公司反而更快,因为优秀人才常被无关事务拖累。创办Surge时,我们决定以全新方式运营——一个极小、极精英的团队。最疯狂的是,我们成功了。
我认为当前两大趋势碰撞:人们意识到企业无需庞大组织即可成功;AI带来的效率将彻底改变公司构建方式。最让我兴奋的是:未来公司不仅变“更小”,类型也将“根本不同”。团队越小,所需资本越少,意味着无需融资。
无融资,就不需依赖善讲故事、善于推销的创始人,而是给真正懂技术、产品的人更多机会。
产品将从过去“为营收、VC喜好”设计,转向真正有趣、由痴迷小团队打造的东西。人们将做真正关心的事,进行真正的技术创新。我衷心希望硅谷回归“黑客创造时代”。
Lenny:你们做了许多“反传统”之事,如几乎不在LinkedIn、Twitter宣传。许多人直到最近才知Surge,然后你们突然宣布营收10亿、增长最快。为何这么做?我猜这是刻意选择?
Edwin: 我们从一开始就不想玩硅谷那套游戏。想想看:你儿时梦想为何?是为每天写代码、做产品,还是为向VC解释每个决策、跳上公关与融资的“仓鼠轮”?不融资确实让一切更难,但只要你融资,就会被纳入硅谷产业链:VC帮你发推,媒体报道你,他们因你的估值写文章。
我们没做这些,所以我们唯一成功的方式,是打造比别人好10倍的产品,让最懂数据的研究者通过口碑发现我们。
虽不易,但这带来好处:早期客户是真正理解数据质量、关心AI模型效果的人。他们给予最有价值反馈,与我们在同一使命上。所以虽更难,但这是“对的困难”。
Lenny:为不太了解Surge的听众,你能快速解释你们的工作吗?
Edwin: 我们本质上是“教AI模型区分好坏”。我们用真人数据训练模型——包括SFT、RHF、Rubrics、Verifiers、R环境等系统。我们也测量模型训练后的进步。因此,我们是一家“数据公司”。
Lenny:你们成功的最大原因之一是数据质量远高于他人。但何谓更高质量数据?你们做了哪些不同之事?大多数人忽略了什么?
Edwin: 许多人甚至不知“质量”何意。他们认为多找人干活就能得好数据,这完全错误。例:假设训练模型写一首关于“月亮”的诗。低质量理解是:是否诗?有8行?有“月亮”词?符合勾选项,就说“合格”。
但我们想要的是“诺贝尔文学奖级别”的诗。我们要的是:是否独特?意象是否细腻?是否能触动情感、引发思考?是否教你关于月光的新东西?这种“质量”高度主观、复杂,难衡量,需大量技术测量。
我们必须收集数千个信号:每个标注者的背景与擅长领域、他们写诗vs写论文vs写技术文档的表现、键盘输入节奏、回答速度、他人对其内容的评价、模型使用其数据后是否变更好。
就像Google搜索:第一层过滤最差内容;第二层找到最好内容;Surge做的是第二层,也是最难一层。
Lenny:听起来你们做的不是简单标注,而是深入理解各垂直领域中“好是什么”。这是通过雇佣专家?还是靠你们定义的评估体系?具体如何运作?
Edwin: 我们收集你在平台上所有行为的“上千个信号”,例如:键盘输入、回答速度、代码规范、同行评价,我们训练的模型对你产出的内容的判断,然后我们判断你是否真正能提升模型性能。
就像Google用各种信号决定网页是否优秀,我们也用信号决定哪些标注者“最好”,哪些项目适合哪些人,哪些内容能真正提升模型能力,最终它其实是一个复杂的机器学习问题。
Lenny:过去几年我一直好奇:Claude在写代码与写作上长期领先其他模型,经济价值巨大,但其他公司花很久才追上。所有AI编码产品都建在Claude上,因它太强。为何Claude这么强?仅数据质量好吗?
Edwin: 数据当然是重要因素,但还有其他部分。模型的数据选择是无限维度的,例如:人类数据vs合成数据的比例,在代码领域,更重视前端还是后端?重视前端的视觉设计,还是代码效率?是否优化学术基准?目标函数到底是什么?最关键的是:后训练是一门“艺术”,非纯科学。
不同团队“品味”不同,导致有的模型写UI更简洁,有的逻辑性更强,有的更偏向“工程师口味”。这种“品味”影响所需数据类型,最终影响模型能力。Anthropic靠“更好数据”获得巨大增长是事实。
Lenny:现在所有模型发布都说“我们在各大基准上超过人类、排名第一”,但普通人感觉模型无大突破。你如何看基准测试?它们与真实AI进步的相关性如何?
Edwin: 坦白说,我完全不信这些基准。理由有二:第一,基准本身常错, 含错误答案,题目混乱且结构不严谨,即使研究人员自己也没意识到问题多大。第二,基准太“客观”,太易被模型刷分。 模型能拿IMO金牌,但仍无法稳定解析PDF。为何?因IMO题目是“客观答案”,而解析PDF是混乱的真实世界问题,所以模型“爬分”易,但解决真实问题难。
Lenny:听起来这些基准更多是营销工具。例如Gemini 3发布时会说:“我们在所有基准中第一!”是否因公司会刻意训练模型刷题?
Edwin: 是的,情况分两种:有些基准意外泄露;实验室会调整系统提示词、运行次数等方式,优化到更高分。
Lenny:我们换个方向,聊聊反主流叙事的观点。我猜你看过《Lex Fridman Podcast》采访Richard Sutton那期?他们聊到语言模型几乎像死胡同,他认为由于学习方式,我们会在语言模型上遇瓶颈。你怎么看?你认为语言模型会把我们带到AGI甚至更远?还是需新东西或重大突破?
Edwin: 我属于相信需新东西的阵营。我是这么想的:当我思考训练时,我持一种——不知是否该说是生物学观点——但我相信,正如人类有无数不同学习方式,我们也需构建能模仿所有这些方式的模型。
也许它们各自关注重点分布不同,但我们都希望能模仿人类学习能力,并确保我们拥有相应算法和数据,让模型以同样方式学习。所以,就语言模型与人类学习方式不同而言,我认为需要新东西。
Lenny:这联系到强化学习。这是你非常看重的领域,且我听到越来越多声音说,它在模型训练后阶段正变得越来越重要。你能帮大家理解强化学习及强化学习环境吗?为何它们在未来会越来越重要?
Edwin: 强化学习本质上是训练模型以达到特定奖励。让我解释强化学习环境。强化学习环境本质上是对现实世界的模拟。可把它想成构建一个拥有完整宇宙的视频游戏。每个角色都有真实故事。每家企业都有你可调用的工具和数据。所有这些不同实体相互交互。
例如,我们可能构建这样一个世界:你有一家初创公司,里面有G邮件、Slack线程、Jira工单、Git PR和整个代码库,然后突然AWS宕机,Slack也挂。那么,模型,你该怎么办?模型需想办法解决。所以,我们在这些环境中给模型分配任务。
我们为它们设计有趣挑战,然后运行它们看其表现如何,接着教导它们。当它们做得好或不好时,我们给予奖励。我认为有趣的是,这些环境真正展示模型在现实世界端到端任务中的薄弱环节。很多模型在孤立基准测试中看起来非常聪明,例如它们擅长单步工具调用,擅长单步指令遵循。
但突然之间,你把它们丢进这些混乱世界:有令人困惑的Slack消息、它们从未见过的工具,它们需要执行正确操作、修改数据库,并在更长时间跨度内进行交互——它们第一步的行为会影响第50步的决策。这与它们之前所处的那些学术性单步环境非常不同,所以模型会以各种灾难性方式失败。因此,我认为这些强化学习环境将成为模型学习的有趣“游乐场”,它们本质上是现实世界的模拟和模仿,所以希望相比这些人为设计的环境,模型在真实任务上能表现得越来越好。
Lenny:我在试着想象这具体样子。本质上,它就像一个虚拟机,里面可能有浏览器或电子表格之类的东西,比如说surge.com……那是你们的网站吗?我们确认一下,是surge.com吗?
Edwin: 我们实际上是surgehq.ai。
Lenny:好的。那么,假设这是surgehq.ai。你的工作,作为一个智能体,是确保网站正常运行,然后突然它宕机了。目标函数是……找出原因。是这样吗?
Edwin: 是的。所以目标函数可能是……或者说任务的目标可能是:去弄清楚原因并修复它。因此,目标函数可能是通过一系列单元测试,也可能是撰写一份文档——比如一份复盘报告,其中包含与实际情况完全吻合的特定信息。我们可能会给它各种各样的不同奖励,以确定它是否成功。所以,我们基本上是在教导模型去达成那个奖励。
本质上,这就像让它放手去干:“这是你的目标,找出网站宕机的原因并修复它。”然后它就开始利用它所有的智能尝试各种事情。它会犯错,你在过程中帮助它,如果它做对了方向就给予奖励。
Lenny:那么你所描述的,这就是模型变得更智能的下一阶段。更多的强化学习环境专注于……我猜是经济价值很高的特定任务?
Edwin: 是的,没错。就像过去模型学习有各种不同方法一样——最初我们有SFT和RLHF,然后有了评估标准和验证器——这是下一个阶段。而且,并不是说以前的方法过时了。这只是另一种学习形式,是对之前所有类型的补充。就像模型学习的一种不同技能。
在这种情况下,它不再是某个物理学博士坐着跟模型对话、纠正它、给它评估“正确答案是什么”、创建评估标准等等。更多的是这个人现在在设计一个环境。
Lenny:我听到的另一个例子是,就像一个财务分析师:“这是一个Excel电子表格,你的目标是弄清楚我们的利润和亏损情况。”那么现在,这位专家不再是坐着写评估标准,而是在设计这个强化学习环境。
Edwin: 对,正是如此。所以那个财务分析师可能会创建一个电子表格。他们可能会创建一些模型需要调用的工具来帮助填写表格。比如,模型可能需要访问彭博终端,它需要学习如何使用它,需要学习如何使用这个计算器,还需要学习如何进行这个计算。所以它有所有这些可以访问的工具。然后奖励可能是:“好的,也许我会下载那个电子表格,我想看看B22单元格是否包含正确的利润亏损数字”,或者“第二个标签页是否包含这条信息”。有趣的是,这更接近人类的学习方式:我们只是尝试各种东西,弄明白什么行得通,什么行不通。
Lenny:你提到在这个过程中“轨迹”非常重要。不仅仅是“这是目标,这是终点”,而是过程中的每一步。你能谈谈什么是“轨迹”,以及为什么它对此很重要吗?
Edwin:我认为人们没有意识到的一点是,有时即使模型得到了正确答案,它也是以各种疯狂的方式达成的。在中间过程中,它可能尝试了50次都失败了,但最终只是碰巧随机地得到了一个正确的数字。或者,有时它的做法非常低效,或者它几乎是“奖励破解”式地找到了正确答案。所以我认为关注轨迹实际上非常重要。
同时,也因为其中一些轨迹可能非常长。如果你只检查模型是否得到了最终答案,那么就缺失了关于模型在中间步骤如何行为的大量信息。有时你希望模型通过反思其行为来得到正确答案,有时你希望它能一次性直接得到正确答案。如果你忽略所有这些,就像是在教导它时缺失了大量本可以教授的信息。
Lenny:我喜欢这个说法。它尝试了一大堆东西最终才做对,你肯定不希望它学会“这就是达到目标的方法”,因为往往有更高效的方法。你提到了在帮助模型变得更智能的旅程中我们所采取的种种步骤。由于你如此近距离地接触这件事这么久,我认为这对大家会很有帮助。从最早的后训练开始,哪些步骤最有助于模型的进步?比如评估(eval)如何融入其中?强化学习环境又是怎样的?有哪些步骤?现在我们正朝着强化学习环境前进。
Edwin: 最初,模型开始进行后训练的方式纯粹是通过SFT。SFT代表监督微调。这很像……我经常用人类学习来类比。SFT很像模仿大师并复制他们的行为。然后RLHF变得非常主流,那个类比就像是:有时你通过写55篇不同的文章来学习,然后有人告诉你他们最喜欢哪一篇。过去一年左右,评估标准和验证器变得非常重要,它们就像是“通过被评分来学习”,得到关于你哪里出错的详细反馈。“评估”(eval)是另一个说法。
我认为“评估”通常涵盖两个层面。一是你使用评估来进行训练,因为你是在评估模型是否做得好,当它做得好时你就奖励它。另一个概念是,你在试图衡量模型的进展,比如:“我有五个不同的候选模型检查点,我想选出最好的一个发布给公众。”所以对这五个不同的检查点进行所有这些评估,以决定哪一个最好。
Lenny:我们有了强化学习环境。这算是当前的新热点。对吧?
Edwin: 是的,现在我们有强化学习环境了。它有点像现在的新热门事物。我认为我们需要构建一套产品,来反映人类学习的无数种不同方式。举个例子,想想如何成为一名伟大的作家。你不是通过死记硬背一堆语法规则而变得伟大的。你是通过阅读伟大的书籍、练习写作、从老师和书店买你书并留下评论的人那里获得反馈而变得伟大的。
你注意到什么有效,什么无效。你通过接触所有这些杰作以及糟糕的作品来培养品味。所以,你是通过这种无尽的实践和反思循环来学习的。你拥有的每一种学习类型——这些对于成为伟大作家来说,都是非常不同的学习方法。同样地,正如伟大作家可以通过一千种不同的方式变得伟大,我认为模型也需要通过一千种不同的方式学习。
这就像最终目标就是把你扔进环境里,看你怎么演化。但在那种演化中,有所有这些不同的子学习机制。
Lenny:这正是我们现在在做的事情。所以这真的很有趣。这可能是我们达到AGI之前的最后一步。沿着这个思路,Surge有一点非常独特,我了解到你们有自己的研究团队,我认为这相当罕见。谈谈为什么你们要在这方面投资,以及这项投资带来了什么?
Edwin: 是的,我认为这源于我自己的背景。我自己的背景就是一名研究员,所以我从根本上一直关心的是推动行业和研究社区的发展,而不仅仅是收入。
我认为研究团队的作用有几个方面。我们公司几乎有两种类型的研究员:一种是“前沿部署研究员”,他们通常与我们的客户密切合作,帮助他们理解自己的模型。我们会与客户非常紧密地合作,帮助他们理解:“这是你的模型目前的水平。这是你落后于所有竞争对手的地方。根据你的目标,这些是未来可能改进的方向。”
然后我们会设计这些数据集、这些评估方法、这些训练技术来让他们的模型变得更好。这是一种非常协作的概念,与我们的客户——他们自己也是研究员,只是更侧重于数据方面——携手合作,竭尽全力让他们成为最好的。
另一种就是我们还有内部研究员。他们专注于稍微不同的领域。他们专注于构建更好的基准测试和排行榜。我谈了很多关于我担心当今的排行榜和基准测试正在将模型引向错误方向的问题。所以,问题是我们如何解决这个问题?这正是我们的研究团队目前非常非常专注的领域。
他们在这方面投入了大量精力。他们也在研究其他方面,比如我们需要训练自己的模型,看看哪种类型的数据表现最好,哪种类型的人员表现最好。所以他们也在研究所有这些训练技术,以及对我们自己的数据集进行评估,以改进我们的数据运营和内部数据产品,从而决定什么才是高质量的东西。
Lenny:这真是太酷了,因为我想基本上各大AI实验室都有自己的研究员来帮助他们推进AI。我猜像你们这样的公司拥有真正从事AI基础研究的研究员,应该是相当罕见的。对吗?
Edwin:是的。我认为这只是因为我从根本上一直关心这件事。我经常更多地认为我们更像一个研究实验室,而不是一家初创公司,因为那就是我的目标。有点好笑,但我总是说,我宁愿成为陶哲轩,而不是沃伦·巴菲特。那种创造能够推动前沿的研究,而不仅仅是获得某些评估结果的理念,一直是驱使我前进的动力,而且效果很好。
Lenny:这就是这件事美妙的地方。你提到你们正在招聘研究员。在这方面有什么想分享的吗?你们在寻找什么样的人?
Edwin:我们寻找那些从根本上对数据整天感兴趣的人。就是那种真的可以花10个小时钻研数据集、摆弄模型、思考“我认为模型在这里失败了,这是我希望模型具备的行为”的人。就是那种非常动手、思考模型的定性方面而不仅仅是定量部分的能力。所以,再次强调,就是这种动手处理数据的态度,而不仅仅是关心那些抽象的算法。
Lenny:太棒了。我想问几个关于AI市场和行业的宏观一点的问题。你认为未来几年还会发生什么人们可能想得不够多、或没有预料到的事情?AI将走向何方?什么会变得重要?
Edwin: 我认为未来几年会发生的一件事是,由于不同实验室的“个性”和“行为”,以及他们优化模型的目标函数不同,模型实际上会变得越来越差异化。
大约一年前,我还没意识到这一点。那时我以为所有的AI模型基本上都会变得非常同质化,它们的行为会彼此相似。当然,今天可能有一个模型在某个方面稍微更聪明一点,但其他的肯定会在几个月内赶上。
但过去一年我意识到,公司所秉持的价值观会塑造模型。
让我举个例子。前几天,我让Claude帮我起草一封邮件,它帮我弄了30个不同的版本,30分钟后,我觉得它确实帮我精心打造了一封完美的邮件,然后我发出去了。但之后我意识到,我花了30分钟做了一件根本无关紧要的事。当然,现在我有了完美的邮件,但我花了30分钟做了一件以前完全不会担心的事。而且这封邮件可能对任何事情都没有任何实质影响。
所以,这里有一个深刻的问题:如果你可以选择完美的模型行为,你想要哪种模型?你是想要一个说“你说得对,这封邮件肯定还有20种改进方法”,然后继续迭代50次,吸走你所有时间和注意力的模型?还是想要一个为你的时间和生产力优化的模型,它会说:“不,你需要停下来。你的邮件已经很好了,发出去然后继续你的一天吧。”
同样地,就像在这个问题上,你可以选择模型如何行为一样,对于模型需要回答的每一个其他问题,你希望模型具备的行为方式将从根本上影响它。这几乎就像谷歌构建搜索引擎的方式与Facebook或苹果构建搜索引擎的方式会非常非常不同一样。他们都有自己遵循的原则、价值观和想在世界上实现的目标,这些塑造了他们将要构建的所有产品。同样地,我认为所有的语言模型也将开始表现得非常不同。
Lenny:这非常有趣。你已经从Grok上看到了这一点。它有一种非常不同的个性和回答问题的方式。所以我听出来,未来我们会看到更多这种差异化。
Edwin: 是的。
Lenny:沿着这个思路,再问一个问题。你认为AI领域最被低估的是什么?你觉得人们谈论得不够多但真的很酷的东西是什么?还有,什么是被过度炒作的?
Edwin: 我认为被低估的一点是,所有聊天机器人将开始内置各种功能。我一直是“可执行文件/成果物”的忠实粉丝,我认为它效果非常好。
实际上,前几天,我不知道这是不是新功能,但它问我是否需要帮助创建一封邮件,然后它创建了……它没能完全工作,因为它不允许我发送邮件,但它创建了一个小盒子,我可以点击它,然后直接给某人发送这条消息。我认为将这种“成果物”概念提升到下一个层次,就在聊天界面本身内置这些小应用、小UI,我觉得人们谈论得还不够多。所以我认为这是一个被低估的领域。
至于过度炒作的领域,我绝对认为“Vibe Coding”(凭感觉/模糊需求生成代码)被过度炒作了。我认为人们没有意识到,如果他们现在就把这些似乎能运行的代码直接丢进他们的代码库,长期来看会让他们的系统变得多么难以维护。所以……我对未来的编码工作有点担心。这种事只会不断发生。
Lenny:这些都是非常精彩的回答。关于第一点,这其实是我问过Anthropic和OpenAI的首席产品官Kevin和Mike(注:指Mike Greger)的问题。我问他们,作为一个产品团队,既然你们现在拥有这种千亿级大脑般的智能,你们到底还需要产品团队多久?你们觉得AI会直接为你创造产品吗?就像“告诉我你想要什么”,它就开始构建产品,并在你使用过程中不断演化产品?感觉你描述的就是我们可能前进的方向。
Edwin: 是的,我认为有一个非常强大的概念,它能帮助人们以一种更强大的方式实现他们的想法。
Lenny:有件事我们还没深入聊,但我觉得非常有趣,就是你创立Surge的故事。你的背景非常独特。我总想起Coinbase创始人Brian Armstrong一次做的演讲,让我印象深刻,他谈到自己非常独特的背景如何让他创立了Coinbase。他有经济学背景,有密码学经验,然后他还是工程师,这就像是一个完美的交集,让他创立了Coinbase。我觉得你与Surge的故事非常相似。聊聊你的背景,以及那如何引领你创立了Surge?
Edwin: 那要从很早以前开始聊起。我从小就对数学和语言非常着迷。我去MIT,一方面因为那里显然是数学和计算机科学最好的地方之一,另一方面也因为乔姆斯基在那里。我上学时的梦想实际上是找到一种连接所有这些不同领域的底层理论。
后来我在谷歌、Facebook和Twitter做过研究员。我一次又一次地遇到同样的问题:我们不可能获得训练模型所需的数据。所以我一直坚信高质量数据的必要性。
然后,2020年GPT-3发布了,我意识到,是的,如果我们想将事情提升到下一个水平,构建能够编码、使用工具、讲笑话、写诗、解决黎曼猜想并治愈癌症的模型,那么,我们将需要一个全新的解决方案。我在所有这些公司时,一直让我抓狂的是:我们面前拥有全人类的智慧力量,而所有数据标注公司却都在专注于图像标注这样非常简单的事情。所以我想构建一些专注于所有这些高级复杂用例的东西,真正帮助我们构建下一代模型。我认为我跨数学、计算机科学和语言学的背景,真的深刻地影响了我一直想做的事情。所以,我在GPT-3发布一个月后创立了Surge,我们的唯一使命就是构建我认为推动AI前沿所需要的那种用例。
Lenny:除了你们正在取得的巨大成功之外,是什么在驱动你继续构建这个事业,在这个领域不断建设?
Edwin:我认为我本质上是个科学家。我一直以为自己会成为数学或计算机科学教授,致力于理解宇宙、语言和通信的本质。有点好笑,但我一直有个天真的梦想:如果有外星人来访地球,我们需要弄清楚如何与它们沟通,我想成为那个和它们一起去的人,用所有这些花哨的数学、计算机科学和语言学知识来破译。
所以即使在今天,我最喜欢做的事仍然是,每当有新模型发布,我们都会对它进行一次非常深入的研究。我会试用它,运行评估,比较它在哪些方面改进了,哪些方面退步了。我会创建这种非常深入的分析报告发送给我们的客户。
这其实有点好笑,因为很多时候我们会说这是数据科学团队做的,但通常其实就是我自己做的。我想我可以一整天都做这个。我很难忍受整天开会。我不擅长销售,也不擅长做人们期望CEO做的那些典型事情。但我喜欢写这些分析报告,喜欢和研究团队一起头脑风暴。
有时候我会和别人在电话上聊到凌晨三点,就为了深入研究某个模型。所以,最重要的是,我仍然能够整天亲身参与数据和科学研究。我认为驱使我前进的是,我希望Surge在AI的未来——我认为这也是人类的未来——中扮演关键角色。
我们对数据、语言、质量以及如何衡量这一切、如何确保它走在正确的道路上,有着非常独特的视角。我认为我们独特地不受那些有时会将公司引向负面方向的种种影响所束缚。就像我之前说的,我们把Surge更多地建设成一个研究实验室,而不是典型的初创公司。
所以我们关心好奇心、长期激励和学术严谨性,而不太关心季度指标或者在董事会报告中看起来好不好。所以我的目标是,利用我们公司所有这些独特之处,来确保我们正在以一种对人类物种长期真正有益的方式塑造AI。
Lenny:在这次对话中,我意识到你们这样的公司对AI的发展方向有多么大的影响力。事实上,你们帮助实验室理解它们的差距在哪里,需要改进什么。不仅仅是每个人都在关注OpenAI等公司的负责人,认为他们是引领AI的人。但我在这里听到的是,你对事情的发展方向有很大的影响力。
Edwin: 是的。我认为这里有一个非常强大的生态系统。老实说,人们还不知道模型将走向何方,他们想要如何塑造它们,以及他们希望人类在这一切的未来中扮演什么角色。所以我认为有很多机会可以继续塑造这场讨论。
Lenny:你分享的这些让我对构建AI、训练AI的细微之处,以及你们所做的工作,有了更深的理解。从外部看,人们可能只把Surge和这个领域的公司看作是在创造所有这些数据来喂养AI。但显然,这其中有很多人们没有意识到的东西。我很欣慰像你这样深思熟虑的人在主导这件事。也许最后一个问题:在创立Surge之前,你希望自己当时知道些什么?很多人创业时并不知道自己要面对什么。有没有什么你想告诉过去的自己的事?
Edwin:是的。我绝对希望自己早知道,你可以通过埋头苦干、做好研究和简单地打造出卓越的产品来建立一家公司,而不是通过不断发推文、制造声势和融资。这有点好笑,但我从没想过自己会开公司。我喜欢做研究,实际上我一直是DeepMind的忠实粉丝,因为它是一家了不起的研究公司,被收购后仍然继续做着惊人的科学研究。
但我一直以为他们是那种神奇而罕见的独角兽。所以我认为如果我开公司,我就得变成一个整天看财务报表、整天开会、做所有这些听起来极其无聊而我总是讨厌的事情的商人。所以,我认为疯狂的是,结果完全不是这样。我每天仍然深入数据之中,而且我喜欢这样。我喜欢我能做所有这些分析,与研究团队交流。这基本上是应用研究,我们在构建所有这些真正推动AI前沿的惊人数据系统。我希望我知道你不必把所有时间都花在融资上,你不必不断制造声势,你不必变成不是你的人。你实际上可以通过打造一个优秀到足以穿透所有噪音的产品来建立一家成功的公司。我想,如果我知道这是可能的,我会更早开始。
Lenny:你有什么喜欢的人生格言,在工作和生活中经常回想起来吗?
Edwin: 我想我提到过这个理念:创始人应该建立一家只有他们才能建立的公司,这几乎像是他们的整个生命、经历和兴趣将他们塑造成此的宿命。所以我认为这个原则适用得很广,不仅对创始人,对任何创造事物的人也是如此。
所以,我想总的原则就是真正追随你的兴趣,做你热爱的事。这几乎就像我做关于Surge的很多决定一样。有几年前我没想过,但后来有人对我说的话:公司在某种意义上,是其CEO的化身。这有点好笑,我以前没想过,因为我一直不太清楚CEO到底做什么。我总以为CEO很普通,就是做你的副总裁们、董事会等等告诉你要做的事,你只是对决策说“是”。但实际上不是这样,而是当我思考某些我们必须做出的重大艰难决定时,我不会想“公司会怎么做”,不会想“我们要优化什么指标”,我只是想“我个人关心什么?我的价值观是什么?我想看到世界上发生什么?”所以,我认为遵循那个理念——问问自己:你关心什么价值观?你想塑造什么?而不是什么会让仪表盘好看——我想这会带来相当重要的结果。
参考链接:https://www.youtube.com/watch?v=dduQeaqmpnI&t=346s
本文由主机测评网于2026-02-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223460.html