当前位置:首页 > 科技资讯 > 正文

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事

AI界迎来历史性对谈!NeurIPS 2025炉边座谈会上,AI教父Geoffrey Hinton与DeepMind首席科学家Jeff Dean同台,首次披露AI革命背后的秘辛与不为人知的趣闻。

万众期待的NeurIPS 2025压轴访谈终于公开!

AI泰斗Hinton与谷歌DeepMind领军人物Jeff Dean,这对昔日的黄金搭档再度聚首,畅谈人工智能发展历程。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第1张

对话伊始,Hinton便抛出一个犀利提问——

谷歌是否对公开Transformer论文感到后悔?

Jeff Dean毫不犹豫地回答,「绝不后悔!因为它给世界带来了深远影响」。

此外,Hinton首次透露,自己对Scaling规律的顿悟,源自Ilya Sutskever的一次演讲启发。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第2张

近一小时的对话中,两位大佬回溯了机器学习早期的突破,以及当今领域面临的挑战与机遇。

他们还分享了诸多精彩片段——

从卧室里用两块GPU跑AlexNet,到谷歌大脑初创时期的艰辛岁月。

Ilya一语点醒Hinton:Scaling才是关键

对话以两人的共同兴趣开场:

Hinton和Jeff都对「反向传播」(backpropagation)情有独钟。

虽然该概念的论文1986年才登上Nature,但其雏形早在1982年就已诞生。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第3张

论文链接:https://www.nature.com/articles/323533a0

Jeff Dean忆及自己的本科毕业论文——

1990年,他先修并行算法课程,仅用一周接触神经网络便深深入迷。

随后他向明尼苏达大学Vipin Kumar教授申请荣誉论文,题目为「用于训练神经网络的并行算法」。

当时Jeff Dean使用了一台32处理器的超立方体计算机,本以为算力翻32倍就能打造出惊人的神经网络。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第4张

论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

然而现实给他上了一课。

只顾扩展处理器(算力),却未同步扩大模型规模。

他把仅含10个神经元的层强行拆分到32个处理器上,结果性能惨不忍睹。

Jeff Dean还早早提出了两个概念:「数据并行」和「模型并行」(当时叫「模式划分」)。

另一边,Hinton坦言自己对算力重要性的认识来得太晚。他说,「80年代末就该意识到算力的价值」。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第5张

彼时,两个顶尖团队——伯克利ICSI和剑桥团队——用并行计算打造出更优的语音声学模型,刷新SOTA,超越常规方法训练的神经网络。

但模型规模扩大导致编程和硬件复杂度飙升,他们最终未能坚持。

直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——

Scaling至关重要,且这一趋势将持续下去。

AlexNet诞生记:一夜之间颠覆图像识别

随后,话题转向2012年AlexNet——那个AI爆发的历史时刻。

Hinton回忆,Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功,证实了「多层网络远胜单层」。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第6张

AlexNet是一个8层神经网络。

当时Hinton申请项目续期,却被评审驳回——

该项目毫无工业应用前景,不值得资助。

Hinton笑称,真想告诉那位评审,这项技术去年贡献了美股80%的涨幅。

随后学生Alex Krizhevsky尝试用MNIST做「微型图像」识别,但失败了,Hinton发现是权重衰减参数设置错误,及时纠正。

此时Ilya提议,「何不直接挑战ImageNet?这么大的数据集肯定行,我们得赶在Yann LeCun之前」。

与此同时,LeCun一直试图让实验室团队将CNN用于ImageNet,但大家认为有更重要的事。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第7张

于是Ilya负责数据预处理,将所有图像统一尺寸,效果惊艳。

Hinton调侃,「接下来我做了这辈子最成功的管理决策」。

只要每周在ImageNet上提升1%的精度,就允许Alex推迟写综述。

结果一周一周不断突破。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第8张

训练硬件就是众所周知的「两块英伟达GTX 580 GPU」。

当时Alex在自己卧室用这两块GPU完成训练。Hinton幽默地说,「GPU我们买单,电费Alex父母付,纯属给多伦多大学省钱」。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第9张

茶水间闲聊催生谷歌大脑

几乎同一时期,谷歌内部一个全新团队——谷歌大脑(Google Brain)正在酝酿。

Jeff Dean回忆,Google Brain的雏形源于一次茶水间偶遇

那天,时任斯坦福教授的Andrew Ng(每周来谷歌一天)正好碰见他。

Andrew提到,「我的学生用神经网络取得了不错成果」。

这句话瞬间点燃Jeff Dean的灵感——我们拥有海量CPU,为何不训练超大规模神经网络?

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第10张

于是他们搭建了一个支持模型并行+数据并行的系统,扩展到上千台机器。

那个著名的实验:在1000万YouTube视频帧上进行无监督学习,让神经网络学会识别「猫」。

他们没有用卷积,而是采用「局部连接」方式处理视觉,参数高达20亿。

这次训练动用了16000个CPU核心。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第11张

Jeff表示,「我们当时已观察到模型越大效果越好。只不过还没正式总结成Scaling Laws」。

我们甚至有个口头禅,某种意义上就是Scaling Laws:更大的模型、更多的数据、更多的算力。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第12张

也就是说,在AlexNet问世一年前,Google Brain就已验证了Scaling Laws。

64岁实习生入职谷歌

2012年夏天,Andrew Ng转向教育平台Coursera,他认为那才是未来。

于是他推荐Hinton接替自己。

有趣的是,Hinton本想做访问科学家,但必须满6个月才能领薪。

于是64岁的Hinton成了谷歌「实习生」,而且导师是Jeff Dean。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第13张

加入谷歌后,Hinton还得和新入职的实习生一起上培训课。

一个大房间里坐满了学生,有来自IIT的,也有清华的,总之都是一群顶尖聪明的年轻人。

培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场懵了:什么是LDAP?什么是OTP?

大约十分钟后,他们决定:派一个助教专门辅导我。

其他学生都好奇地看着这个什么都不懂、年纪是他们三倍的人。说实话,有点尴尬。

更尴尬的是,午饭时Hinton还遇到了以前教过的一名本科生。

直到入职第二天,Jeff Dean和Hinton才在Palo Alto一家越南餐厅首次正式见面。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第14张

赌场拍卖,谷歌必胜

AlexNet爆火后,多家公司争抢Hinton团队。

但他们发现,如果把自己包装成一家「公司」,能拿到更多钱。

「所以我们决定:我们要成为『收购标的』」。

于是Hinton成立DNN Research,举办了一场拍卖会,谷歌、微软、百度等纷纷参与。

有趣的是,地点选在了南太浩湖(South Lake Tahoe)的赌场。

楼下老虎机声不断,楼上每次加价至少100万美元。

Hinton透露,「但我心里早就认定:谷歌必须赢」。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第15张

最核心的原因,就是那年夏天的「实习生」经历。

所以在拍卖接近尾声时,当那两拨人离场、眼看可能让「不该赢的人」胜出,我们直接叫停了拍卖。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第16张

Google Brain早期合影

加入谷歌后,Hinton参与了多个项目,现场他还分享了失败案例——Capsules(胶囊网络)。

他投入「巨大决心」执着多年,尽管Jeff和Ilya劝阻,最终一无所获。

不过Hinton也为谷歌做了些有价值的工作,比如「模型蒸馏」(distillation)

大约2014年,这篇论文投稿NeurIPS后被拒。

审稿人完全不理解其思想,如今它已成为LLM核心技术之一。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第17张

另外,Hinton和Abdelrahman Mohamed开发了一个优秀的「语音声学模型」,想推销给黑莓(BlackBerry),却遭拒绝——

因为我们有键盘

后来Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。

从Transformer到Gemini

要说Google Brain对世界影响最深远的成果,当属Transformer!

Jeff Dean回忆,Transformer灵感源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。

它使用深层LSTM在机器翻译上大获成功,但LSTM存在顺序依赖和状态压缩的瓶颈。

如果把所有状态都保存下来,然后施加注意力(attention),可能会更好。

事实上谷歌之外已有一些注意力机制的早期探索。

注意力机制由Bahdanau等人引入,保留了完整上下文。

后来这一思想被整合到seq2seq中,最终演变成Transformer:即保存所有状态,然后对其进行注意力计算。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第18张

Jeff Dean评价道,这非常优雅——

因为可以并行计算所有状态,不再受顺序依赖约束。

同时能回顾所有历史状态,更好地理解解码目标;对于编码器,也能利用更丰富的状态信息。

Hinton坦言,Transformer刚问世时自己没太重视——因为大脑不会存储每一步向量,他更关注生物启发。

但论文一发表就展示了用少10到100倍的算力达到同等甚至更好的效果。

这显然是一件大事。

然而从内部视角看,Transformer只是众多突破之一,并未显得「鹤立鸡群」。

他表示,甚至不太确定它是否「更重要」——但它确实非常有用。

在ChatGPT之前,谷歌已有强大的聊天机器人,但从搜索角度看,幻觉和事实性问题使其难以发布。

Jeff解释,「搜索的核心是准确」。

直到2023年ChatGPT横空出世,谷歌才猛然惊醒。内部拉响「红色警报」,Jeff写下一纸备忘录:

我们有点「自缚手脚」了。

因为我们早就知道算力规模与模型质量强相关:算力和数据越多,模型越好。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第19张

而且谷歌内部多个团队(Google Brain、DeepMind、谷歌研究院)都在该领域探索。

问题在于,我们把研究想法和人力切得太碎,算力也切得太碎。

于是迅速进行内部大重组,Google Brain+DeepMind=Google DeepMind

这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。

这时Hinton插问,「谷歌是否后悔发表Transformer论文」?

Jeff坚定回答,「不会,因为它对世界产生了积极影响」。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第20张

紧接着主持人追问,「之后谷歌就很少发表论文了?还是说并非如此」?

Jeff澄清,「我们仍在发表,今年NeurIPS就有上百篇」。

对于商业上最关键、特别是面向「最大规模模型」的论文,我们会更谨慎。

公开发表是竞争优势,能吸引人才、获得社区反馈。谷歌全栈护城河,坚不可摧。

最近几周,谷歌密集发布Gemini,让世界重新认识到谷歌的实力,尤其是背后的硬件优势——TPU。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第21张

Jeff Dean现场强调硬件-模型「协同设计」(co-design)的优势——

谷歌研究人员与硬件团队紧密合作,提前布局潜力方向,预测未来2-6年的趋势。

甚至用强化学习优化芯片布局布线,并在多代TPU上应用。

这不仅提升了芯片质量,也加速了研发流程。

展望未来20年

炉边对话压轴部分,主持人问及所有人最关心的问题——

AI领域将走向何方?Transformer会被取代吗?20年后世界会是什么样?

Jeff Dean最兴奋的方向之一,是将Scaling注意力机制的触角从百万Token扩展到数万亿。

让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。

他承认,这需要硬件创新,以及更节能、性价比更高的推理芯片。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第22张

Jeff Dean还指出,当前模型缺乏「持续学习」,训练后即固定不变。

MoE模型往往是一堆大小相同的专家:分出去,再合回来,再分出去。这种结构其实没什么意思。

未来他们将探索更动态、受脑启发的架构。

对于20年后的预测,Hinton总结道——

如果真的有人造出超级智能,要么我们从此幸福快乐,要么我们全部灭亡。

AI双神会:Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton  Jeff Dean Transformer 神经网络历史 第23张

20年后到底有何影响,谁也说不准,尤其对社会的影响。

很明显许多工作会消失。但不清楚能否创造出足够的新岗位来替代。

Jeff Dean则对科学加速持乐观态度,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。

两人一致认为,医疗与教育变革将最为剧烈。

Hinton最后补充,「大模型压缩巨量知识,发现人类未见的共通性,它们会极富创造力——比如找到希腊文学与量子力学的远距离类比」。

参考资料:

https://x.com/JeffDean/status/2001389087924887822

https://www.youtube.com/watch?v=ue9MWfvMylE