AI界迎来历史性对谈!NeurIPS 2025炉边座谈会上,AI教父Geoffrey Hinton与DeepMind首席科学家Jeff Dean同台,首次披露AI革命背后的秘辛与不为人知的趣闻。
万众期待的NeurIPS 2025压轴访谈终于公开!
AI泰斗Hinton与谷歌DeepMind领军人物Jeff Dean,这对昔日的黄金搭档再度聚首,畅谈人工智能发展历程。
对话伊始,Hinton便抛出一个犀利提问——
谷歌是否对公开Transformer论文感到后悔?
Jeff Dean毫不犹豫地回答,「绝不后悔!因为它给世界带来了深远影响」。
此外,Hinton首次透露,自己对Scaling规律的顿悟,源自Ilya Sutskever的一次演讲启发。
近一小时的对话中,两位大佬回溯了机器学习早期的突破,以及当今领域面临的挑战与机遇。
他们还分享了诸多精彩片段——
从卧室里用两块GPU跑AlexNet,到谷歌大脑初创时期的艰辛岁月。
对话以两人的共同兴趣开场:
Hinton和Jeff都对「反向传播」(backpropagation)情有独钟。
虽然该概念的论文1986年才登上Nature,但其雏形早在1982年就已诞生。
论文链接:https://www.nature.com/articles/323533a0
Jeff Dean忆及自己的本科毕业论文——
1990年,他先修并行算法课程,仅用一周接触神经网络便深深入迷。
随后他向明尼苏达大学Vipin Kumar教授申请荣誉论文,题目为「用于训练神经网络的并行算法」。
当时Jeff Dean使用了一台32处理器的超立方体计算机,本以为算力翻32倍就能打造出惊人的神经网络。
论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1
然而现实给他上了一课。
只顾扩展处理器(算力),却未同步扩大模型规模。
他把仅含10个神经元的层强行拆分到32个处理器上,结果性能惨不忍睹。
Jeff Dean还早早提出了两个概念:「数据并行」和「模型并行」(当时叫「模式划分」)。
另一边,Hinton坦言自己对算力重要性的认识来得太晚。他说,「80年代末就该意识到算力的价值」。
彼时,两个顶尖团队——伯克利ICSI和剑桥团队——用并行计算打造出更优的语音声学模型,刷新SOTA,超越常规方法训练的神经网络。
但模型规模扩大导致编程和硬件复杂度飙升,他们最终未能坚持。
直到2014年,听完Ilya Sutskever的报告,Hinton才彻底醒悟——
Scaling至关重要,且这一趋势将持续下去。
随后,话题转向2012年AlexNet——那个AI爆发的历史时刻。
Hinton回忆,Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功,证实了「多层网络远胜单层」。
AlexNet是一个8层神经网络。
当时Hinton申请项目续期,却被评审驳回——
该项目毫无工业应用前景,不值得资助。
Hinton笑称,真想告诉那位评审,这项技术去年贡献了美股80%的涨幅。
随后学生Alex Krizhevsky尝试用MNIST做「微型图像」识别,但失败了,Hinton发现是权重衰减参数设置错误,及时纠正。
此时Ilya提议,「何不直接挑战ImageNet?这么大的数据集肯定行,我们得赶在Yann LeCun之前」。
与此同时,LeCun一直试图让实验室团队将CNN用于ImageNet,但大家认为有更重要的事。
于是Ilya负责数据预处理,将所有图像统一尺寸,效果惊艳。
Hinton调侃,「接下来我做了这辈子最成功的管理决策」。
只要每周在ImageNet上提升1%的精度,就允许Alex推迟写综述。
结果一周一周不断突破。
训练硬件就是众所周知的「两块英伟达GTX 580 GPU」。
当时Alex在自己卧室用这两块GPU完成训练。Hinton幽默地说,「GPU我们买单,电费Alex父母付,纯属给多伦多大学省钱」。
几乎同一时期,谷歌内部一个全新团队——谷歌大脑(Google Brain)正在酝酿。
Jeff Dean回忆,Google Brain的雏形源于一次茶水间偶遇。
那天,时任斯坦福教授的Andrew Ng(每周来谷歌一天)正好碰见他。
Andrew提到,「我的学生用神经网络取得了不错成果」。
这句话瞬间点燃Jeff Dean的灵感——我们拥有海量CPU,为何不训练超大规模神经网络?
于是他们搭建了一个支持模型并行+数据并行的系统,扩展到上千台机器。
那个著名的实验:在1000万YouTube视频帧上进行无监督学习,让神经网络学会识别「猫」。
他们没有用卷积,而是采用「局部连接」方式处理视觉,参数高达20亿。
这次训练动用了16000个CPU核心。
Jeff表示,「我们当时已观察到模型越大效果越好。只不过还没正式总结成Scaling Laws」。
我们甚至有个口头禅,某种意义上就是Scaling Laws:更大的模型、更多的数据、更多的算力。
也就是说,在AlexNet问世一年前,Google Brain就已验证了Scaling Laws。
2012年夏天,Andrew Ng转向教育平台Coursera,他认为那才是未来。
于是他推荐Hinton接替自己。
有趣的是,Hinton本想做访问科学家,但必须满6个月才能领薪。
于是64岁的Hinton成了谷歌「实习生」,而且导师是Jeff Dean。
加入谷歌后,Hinton还得和新入职的实习生一起上培训课。
一个大房间里坐满了学生,有来自IIT的,也有清华的,总之都是一群顶尖聪明的年轻人。
培训第一天,讲师说「用你的LDAP和OTP登录」,Hinton当场懵了:什么是LDAP?什么是OTP?
大约十分钟后,他们决定:派一个助教专门辅导我。
其他学生都好奇地看着这个什么都不懂、年纪是他们三倍的人。说实话,有点尴尬。
更尴尬的是,午饭时Hinton还遇到了以前教过的一名本科生。
直到入职第二天,Jeff Dean和Hinton才在Palo Alto一家越南餐厅首次正式见面。
AlexNet爆火后,多家公司争抢Hinton团队。
但他们发现,如果把自己包装成一家「公司」,能拿到更多钱。
「所以我们决定:我们要成为『收购标的』」。
于是Hinton成立DNN Research,举办了一场拍卖会,谷歌、微软、百度等纷纷参与。
有趣的是,地点选在了南太浩湖(South Lake Tahoe)的赌场。
楼下老虎机声不断,楼上每次加价至少100万美元。
Hinton透露,「但我心里早就认定:谷歌必须赢」。
最核心的原因,就是那年夏天的「实习生」经历。
所以在拍卖接近尾声时,当那两拨人离场、眼看可能让「不该赢的人」胜出,我们直接叫停了拍卖。
Google Brain早期合影
加入谷歌后,Hinton参与了多个项目,现场他还分享了失败案例——Capsules(胶囊网络)。
他投入「巨大决心」执着多年,尽管Jeff和Ilya劝阻,最终一无所获。
不过Hinton也为谷歌做了些有价值的工作,比如「模型蒸馏」(distillation)。
大约2014年,这篇论文投稿NeurIPS后被拒。
审稿人完全不理解其思想,如今它已成为LLM核心技术之一。
另外,Hinton和Abdelrahman Mohamed开发了一个优秀的「语音声学模型」,想推销给黑莓(BlackBerry),却遭拒绝——
因为我们有键盘
后来Navdeep Jaitly在谷歌用GPU证明了其价值,大获成功。
要说Google Brain对世界影响最深远的成果,当属Transformer!
Jeff Dean回忆,Transformer灵感源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。
它使用深层LSTM在机器翻译上大获成功,但LSTM存在顺序依赖和状态压缩的瓶颈。
如果把所有状态都保存下来,然后施加注意力(attention),可能会更好。
事实上谷歌之外已有一些注意力机制的早期探索。
注意力机制由Bahdanau等人引入,保留了完整上下文。
后来这一思想被整合到seq2seq中,最终演变成Transformer:即保存所有状态,然后对其进行注意力计算。
Jeff Dean评价道,这非常优雅——
因为可以并行计算所有状态,不再受顺序依赖约束。
同时能回顾所有历史状态,更好地理解解码目标;对于编码器,也能利用更丰富的状态信息。
Hinton坦言,Transformer刚问世时自己没太重视——因为大脑不会存储每一步向量,他更关注生物启发。
但论文一发表就展示了用少10到100倍的算力达到同等甚至更好的效果。
这显然是一件大事。
然而从内部视角看,Transformer只是众多突破之一,并未显得「鹤立鸡群」。
他表示,甚至不太确定它是否「更重要」——但它确实非常有用。
在ChatGPT之前,谷歌已有强大的聊天机器人,但从搜索角度看,幻觉和事实性问题使其难以发布。
Jeff解释,「搜索的核心是准确」。
直到2023年ChatGPT横空出世,谷歌才猛然惊醒。内部拉响「红色警报」,Jeff写下一纸备忘录:
我们有点「自缚手脚」了。
因为我们早就知道算力规模与模型质量强相关:算力和数据越多,模型越好。
而且谷歌内部多个团队(Google Brain、DeepMind、谷歌研究院)都在该领域探索。
问题在于,我们把研究想法和人力切得太碎,算力也切得太碎。
于是迅速进行内部大重组,Google Brain+DeepMind=Google DeepMind。
这直接催生了Gemini:合并团队、共享算力,打造出世界最强的多模态模型。
这时Hinton插问,「谷歌是否后悔发表Transformer论文」?
Jeff坚定回答,「不会,因为它对世界产生了积极影响」。
紧接着主持人追问,「之后谷歌就很少发表论文了?还是说并非如此」?
Jeff澄清,「我们仍在发表,今年NeurIPS就有上百篇」。
对于商业上最关键、特别是面向「最大规模模型」的论文,我们会更谨慎。
公开发表是竞争优势,能吸引人才、获得社区反馈。谷歌全栈护城河,坚不可摧。
最近几周,谷歌密集发布Gemini,让世界重新认识到谷歌的实力,尤其是背后的硬件优势——TPU。
Jeff Dean现场强调硬件-模型「协同设计」(co-design)的优势——
谷歌研究人员与硬件团队紧密合作,提前布局潜力方向,预测未来2-6年的趋势。
甚至用强化学习优化芯片布局布线,并在多代TPU上应用。
这不仅提升了芯片质量,也加速了研发流程。
炉边对话压轴部分,主持人问及所有人最关心的问题——
AI领域将走向何方?Transformer会被取代吗?20年后世界会是什么样?
Jeff Dean最兴奋的方向之一,是将Scaling注意力机制的触角从百万Token扩展到数万亿。
让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。
他承认,这需要硬件创新,以及更节能、性价比更高的推理芯片。
Jeff Dean还指出,当前模型缺乏「持续学习」,训练后即固定不变。
MoE模型往往是一堆大小相同的专家:分出去,再合回来,再分出去。这种结构其实没什么意思。
未来他们将探索更动态、受脑启发的架构。
对于20年后的预测,Hinton总结道——
如果真的有人造出超级智能,要么我们从此幸福快乐,要么我们全部灭亡。
20年后到底有何影响,谁也说不准,尤其对社会的影响。
很明显许多工作会消失。但不清楚能否创造出足够的新岗位来替代。
Jeff Dean则对科学加速持乐观态度,「AI连接不同领域、自动化发现闭环,将让突破更快发生」。
两人一致认为,医疗与教育变革将最为剧烈。
Hinton最后补充,「大模型压缩巨量知识,发现人类未见的共通性,它们会极富创造力——比如找到希腊文学与量子力学的远距离类比」。
参考资料:
https://x.com/JeffDean/status/2001389087924887822
https://www.youtube.com/watch?v=ue9MWfvMylE
本文由主机测评网于2026-03-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329573.html