当前位置：首页 > 科技资讯 > 正文

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事

主机测评网
科技资讯
2026-03-08
183

AI界迎来历史性对谈！NeurIPS 2025炉边座谈会上，AI教父Geoffrey Hinton与DeepMind首席科学家Jeff Dean同台，首次披露AI革命背后的秘辛与不为人知的趣闻。

万众期待的NeurIPS 2025压轴访谈终于公开！

AI泰斗Hinton与谷歌DeepMind领军人物Jeff Dean，这对昔日的黄金搭档再度聚首，畅谈人工智能发展历程。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第1张

对话伊始，Hinton便抛出一个犀利提问——

谷歌是否对公开Transformer论文感到后悔？

Jeff Dean毫不犹豫地回答，「绝不后悔！因为它给世界带来了深远影响」。

此外，Hinton首次透露，自己对Scaling规律的顿悟，源自Ilya Sutskever的一次演讲启发。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第2张

近一小时的对话中，两位大佬回溯了机器学习早期的突破，以及当今领域面临的挑战与机遇。

他们还分享了诸多精彩片段——

从卧室里用两块GPU跑AlexNet，到谷歌大脑初创时期的艰辛岁月。

Ilya一语点醒Hinton：Scaling才是关键

对话以两人的共同兴趣开场：

Hinton和Jeff都对「反向传播」（backpropagation）情有独钟。

虽然该概念的论文1986年才登上Nature，但其雏形早在1982年就已诞生。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第3张

论文链接：https://www.nature.com/articles/323533a0

Jeff Dean忆及自己的本科毕业论文——

1990年，他先修并行算法课程，仅用一周接触神经网络便深深入迷。

随后他向明尼苏达大学Vipin Kumar教授申请荣誉论文，题目为「用于训练神经网络的并行算法」。

当时Jeff Dean使用了一台32处理器的超立方体计算机，本以为算力翻32倍就能打造出惊人的神经网络。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第4张

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

然而现实给他上了一课。

只顾扩展处理器（算力），却未同步扩大模型规模。

他把仅含10个神经元的层强行拆分到32个处理器上，结果性能惨不忍睹。

Jeff Dean还早早提出了两个概念：「数据并行」和「模型并行」（当时叫「模式划分」）。

另一边，Hinton坦言自己对算力重要性的认识来得太晚。他说，「80年代末就该意识到算力的价值」。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第5张

彼时，两个顶尖团队——伯克利ICSI和剑桥团队——用并行计算打造出更优的语音声学模型，刷新SOTA，超越常规方法训练的神经网络。

但模型规模扩大导致编程和硬件复杂度飙升，他们最终未能坚持。

直到2014年，听完Ilya Sutskever的报告，Hinton才彻底醒悟——

Scaling至关重要，且这一趋势将持续下去。

AlexNet诞生记：一夜之间颠覆图像识别

随后，话题转向2012年AlexNet——那个AI爆发的历史时刻。

Hinton回忆，Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功，证实了「多层网络远胜单层」。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第6张

AlexNet是一个8层神经网络。

当时Hinton申请项目续期，却被评审驳回——

该项目毫无工业应用前景，不值得资助。

Hinton笑称，真想告诉那位评审，这项技术去年贡献了美股80%的涨幅。

随后学生Alex Krizhevsky尝试用MNIST做「微型图像」识别，但失败了，Hinton发现是权重衰减参数设置错误，及时纠正。

此时Ilya提议，「何不直接挑战ImageNet？这么大的数据集肯定行，我们得赶在Yann LeCun之前」。

与此同时，LeCun一直试图让实验室团队将CNN用于ImageNet，但大家认为有更重要的事。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第7张

于是Ilya负责数据预处理，将所有图像统一尺寸，效果惊艳。

Hinton调侃，「接下来我做了这辈子最成功的管理决策」。

只要每周在ImageNet上提升1%的精度，就允许Alex推迟写综述。

结果一周一周不断突破。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第8张

训练硬件就是众所周知的「两块英伟达GTX 580 GPU」。

当时Alex在自己卧室用这两块GPU完成训练。Hinton幽默地说，「GPU我们买单，电费Alex父母付，纯属给多伦多大学省钱」。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第9张

茶水间闲聊催生谷歌大脑

几乎同一时期，谷歌内部一个全新团队——谷歌大脑（Google Brain）正在酝酿。

Jeff Dean回忆，Google Brain的雏形源于一次茶水间偶遇。

那天，时任斯坦福教授的Andrew Ng（每周来谷歌一天）正好碰见他。

Andrew提到，「我的学生用神经网络取得了不错成果」。

这句话瞬间点燃Jeff Dean的灵感——我们拥有海量CPU，为何不训练超大规模神经网络？

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第10张

于是他们搭建了一个支持模型并行+数据并行的系统，扩展到上千台机器。

那个著名的实验：在1000万YouTube视频帧上进行无监督学习，让神经网络学会识别「猫」。

他们没有用卷积，而是采用「局部连接」方式处理视觉，参数高达20亿。

这次训练动用了16000个CPU核心。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第11张

Jeff表示，「我们当时已观察到模型越大效果越好。只不过还没正式总结成Scaling Laws」。

我们甚至有个口头禅，某种意义上就是Scaling Laws：更大的模型、更多的数据、更多的算力。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第12张

也就是说，在AlexNet问世一年前，Google Brain就已验证了Scaling Laws。

64岁实习生入职谷歌

2012年夏天，Andrew Ng转向教育平台Coursera，他认为那才是未来。

于是他推荐Hinton接替自己。

有趣的是，Hinton本想做访问科学家，但必须满6个月才能领薪。

于是64岁的Hinton成了谷歌「实习生」，而且导师是Jeff Dean。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第13张

加入谷歌后，Hinton还得和新入职的实习生一起上培训课。

一个大房间里坐满了学生，有来自IIT的，也有清华的，总之都是一群顶尖聪明的年轻人。

培训第一天，讲师说「用你的LDAP和OTP登录」，Hinton当场懵了：什么是LDAP？什么是OTP？

大约十分钟后，他们决定：派一个助教专门辅导我。

其他学生都好奇地看着这个什么都不懂、年纪是他们三倍的人。说实话，有点尴尬。

更尴尬的是，午饭时Hinton还遇到了以前教过的一名本科生。

直到入职第二天，Jeff Dean和Hinton才在Palo Alto一家越南餐厅首次正式见面。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第14张

赌场拍卖，谷歌必胜

AlexNet爆火后，多家公司争抢Hinton团队。

但他们发现，如果把自己包装成一家「公司」，能拿到更多钱。

「所以我们决定：我们要成为『收购标的』」。

于是Hinton成立DNN Research，举办了一场拍卖会，谷歌、微软、百度等纷纷参与。

有趣的是，地点选在了南太浩湖（South Lake Tahoe）的赌场。

楼下老虎机声不断，楼上每次加价至少100万美元。

Hinton透露，「但我心里早就认定：谷歌必须赢」。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第15张

最核心的原因，就是那年夏天的「实习生」经历。

所以在拍卖接近尾声时，当那两拨人离场、眼看可能让「不该赢的人」胜出，我们直接叫停了拍卖。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第16张

Google Brain早期合影

加入谷歌后，Hinton参与了多个项目，现场他还分享了失败案例——Capsules（胶囊网络）。

他投入「巨大决心」执着多年，尽管Jeff和Ilya劝阻，最终一无所获。

不过Hinton也为谷歌做了些有价值的工作，比如「模型蒸馏」（distillation）。

大约2014年，这篇论文投稿NeurIPS后被拒。

审稿人完全不理解其思想，如今它已成为LLM核心技术之一。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第17张

另外，Hinton和Abdelrahman Mohamed开发了一个优秀的「语音声学模型」，想推销给黑莓（BlackBerry），却遭拒绝——

因为我们有键盘

后来Navdeep Jaitly在谷歌用GPU证明了其价值，大获成功。

从Transformer到Gemini

要说Google Brain对世界影响最深远的成果，当属Transformer！

Jeff Dean回忆，Transformer灵感源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」（seq2seq）工作。

它使用深层LSTM在机器翻译上大获成功，但LSTM存在顺序依赖和状态压缩的瓶颈。

如果把所有状态都保存下来，然后施加注意力（attention），可能会更好。

事实上谷歌之外已有一些注意力机制的早期探索。

注意力机制由Bahdanau等人引入，保留了完整上下文。

后来这一思想被整合到seq2seq中，最终演变成Transformer：即保存所有状态，然后对其进行注意力计算。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第18张

Jeff Dean评价道，这非常优雅——

因为可以并行计算所有状态，不再受顺序依赖约束。

同时能回顾所有历史状态，更好地理解解码目标；对于编码器，也能利用更丰富的状态信息。

Hinton坦言，Transformer刚问世时自己没太重视——因为大脑不会存储每一步向量，他更关注生物启发。

但论文一发表就展示了用少10到100倍的算力达到同等甚至更好的效果。

这显然是一件大事。

然而从内部视角看，Transformer只是众多突破之一，并未显得「鹤立鸡群」。

他表示，甚至不太确定它是否「更重要」——但它确实非常有用。

在ChatGPT之前，谷歌已有强大的聊天机器人，但从搜索角度看，幻觉和事实性问题使其难以发布。

Jeff解释，「搜索的核心是准确」。

直到2023年ChatGPT横空出世，谷歌才猛然惊醒。内部拉响「红色警报」，Jeff写下一纸备忘录：

我们有点「自缚手脚」了。

因为我们早就知道算力规模与模型质量强相关：算力和数据越多，模型越好。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第19张

而且谷歌内部多个团队（Google Brain、DeepMind、谷歌研究院）都在该领域探索。

问题在于，我们把研究想法和人力切得太碎，算力也切得太碎。

于是迅速进行内部大重组，Google Brain+DeepMind=Google DeepMind。

这直接催生了Gemini：合并团队、共享算力，打造出世界最强的多模态模型。

这时Hinton插问，「谷歌是否后悔发表Transformer论文」？

Jeff坚定回答，「不会，因为它对世界产生了积极影响」。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第20张

紧接着主持人追问，「之后谷歌就很少发表论文了？还是说并非如此」？

Jeff澄清，「我们仍在发表，今年NeurIPS就有上百篇」。

对于商业上最关键、特别是面向「最大规模模型」的论文，我们会更谨慎。

公开发表是竞争优势，能吸引人才、获得社区反馈。谷歌全栈护城河，坚不可摧。

最近几周，谷歌密集发布Gemini，让世界重新认识到谷歌的实力，尤其是背后的硬件优势——TPU。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第21张

Jeff Dean现场强调硬件-模型「协同设计」（co-design）的优势——

谷歌研究人员与硬件团队紧密合作，提前布局潜力方向，预测未来2-6年的趋势。

甚至用强化学习优化芯片布局布线，并在多代TPU上应用。

这不仅提升了芯片质量，也加速了研发流程。

展望未来20年

炉边对话压轴部分，主持人问及所有人最关心的问题——

AI领域将走向何方？Transformer会被取代吗？20年后世界会是什么样？

Jeff Dean最兴奋的方向之一，是将Scaling注意力机制的触角从百万Token扩展到数万亿。

让模型直接访问所有科学论文、所有视频，而非将数万亿token塞进几千亿个权重里。

他承认，这需要硬件创新，以及更节能、性价比更高的推理芯片。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第22张

Jeff Dean还指出，当前模型缺乏「持续学习」，训练后即固定不变。

MoE模型往往是一堆大小相同的专家：分出去，再合回来，再分出去。这种结构其实没什么意思。

未来他们将探索更动态、受脑启发的架构。

对于20年后的预测，Hinton总结道——

如果真的有人造出超级智能，要么我们从此幸福快乐，要么我们全部灭亡。

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事 Hinton Jeff Dean Transformer 神经网络历史第23张

20年后到底有何影响，谁也说不准，尤其对社会的影响。

很明显许多工作会消失。但不清楚能否创造出足够的新岗位来替代。

Jeff Dean则对科学加速持乐观态度，「AI连接不同领域、自动化发现闭环，将让突破更快发生」。

两人一致认为，医疗与教育变革将最为剧烈。

Hinton最后补充，「大模型压缩巨量知识，发现人类未见的共通性，它们会极富创造力——比如找到希腊文学与量子力学的远距离类比」。

参考资料：

https://x.com/JeffDean/status/2001389087924887822

https://www.youtube.com/watch?v=ue9MWfvMylE

阿里云服务器服务器教程高防服务器

本文由主机测评网于2026-03-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329573.html

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事

Ilya一语点醒Hinton：Scaling才是关键

AlexNet诞生记：一夜之间颠覆图像识别

茶水间闲聊催生谷歌大脑

64岁实习生入职谷歌

赌场拍卖，谷歌必胜

从Transformer到Gemini

展望未来20年

Ubuntu QT交叉编译环境搭建（超级详细从零开始教程）

Ubuntu网络配置完全指南：桥接与NAT网络详解（小白也能懂的虚拟机网络设置教程）

AI双神会：Hinton与Jeff Dean回忆录——从AlexNet到Transformer的未公开轶事

Ilya一语点醒Hinton：Scaling才是关键

AlexNet诞生记：一夜之间颠覆图像识别

茶水间闲聊催生谷歌大脑

64岁实习生入职谷歌

赌场拍卖，谷歌必胜

从Transformer到Gemini

展望未来20年

Ubuntu QT交叉编译环境搭建（超级详细从零开始教程）

Ubuntu网络配置完全指南：桥接与NAT网络详解（小白也能懂的虚拟机网络设置教程）

相关文章