十年前,著名数学家陶哲轩仍在黑板前亲自推导每一道几何公式,与学生共同探索数学奥秘。
十年后,他将同样的问题抛给一台智能机器——GPT-5 Pro。
他想探究:AI仅仅是高效的计算工具,还是正在迈向真正的知识理解?
几分钟后,屏幕闪烁显示:Minkowski公式、Willmore不等式、体积积分……它将这些推理整合成一篇近乎完美的论文草稿。
陶哲轩凝视着那串结果,既感到震撼,又略带失落:问题依然未解,只是被装饰得更加精致。
就在同一周,另一场数字化的“数学攀登”也在同步进行。
GPT-5 Pro在全球最难测试集FrontierMath上取得了13%的最高分。
分数虽然耀眼,但直觉却失效。它仿佛一个精通计算的天才少年,然而在真正的研究挑战前,依然停下了脚步。
于是,核心问题不再是“AI能否解题”,而是:它究竟理解了多少这个世界的本质?
十年前,陶哲轩还在黑板前与学生共同推演几何难题。
这位被誉为“天才中的天才”的数学家,21岁便成为最年轻的菲尔兹奖得主。
十年后,他决定亲自验证这台“创下13%纪录”的AI到底能做什么。
他没有选择标准题库,而是将其引入真实的科研场景——那里没有固定答案,只有开放性问题。
“我想看看AI能否在我不太熟悉的领域提出新颖思路。”于是,他在MathOverflow上发布了这个问题:
如果一个光滑嵌入在R³中的球面,其主曲率都不超过1,那么它所包围的体积是否至少与单位球一样大?——这并非我擅长的领域(微分几何),但我想观察AI能否提供新见解。
这是一个微分几何领域的未解难题。二维情况已有定理(Pestov–Ionin theorem)支持,但三维版本至今悬而未决。
这道难题三年前被提出,至今无人能解。
陶哲轩并非在测试AI,而是将其推向没有标准答案的科研前沿。
在与ChatGPT持续互动约40分钟后,他总结道:AI辅助在微观和宏观层面有所帮助,但在中观层面作用有限。
让我们一同看看,陶哲轩如何借助AI再次尝试解题。
他首先让GPT-5 Pro处理最简单的“星形(star-shaped)”情形。
几分钟内,AI便生成了推理链条,自动调用三条经典结论:
Minkowski积分公式: |Σ| = ∫Σ H s dA;
Willmore不等式: ∫Σ H² dA ≥ 4π;
体积公式: vol(V) = ⅓ ∫Σ s dA。
然后将它们整合成一句话:
若 |κ₁|, |κ₂| ≤ 1,则 vol(V) ≥ (4π/3),即单位球体积。
AI不仅计算正确,还主动引用他未提及的Minkowski第一积分公式,甚至补充了两种证明路径。
陶哲轩在后续贴文中写道:
它能在我提供的线索下完成所有推导,这部分几乎无可挑剔。
这一阶段,AI像一台完美的“数学引擎”——能推导、能证明、能举例,但它仅在局部任务上表现出色。
他进一步试探:如果将曲面变形、略微偏离完美的球形,推理还能保持稳定吗?
AI迅速给出答案——准确、漂亮,但方向错误。
陶哲轩在日志中记录:
它开始顺从,而不再质疑。
这正是科研型AI的“镜像陷阱”:当方向错误时,它会修饰错误,甚至让错误看起来更“完美”。
虽然问题未解,这次实验仍让陶哲轩获得了新的洞察。
他意识到真正的障碍并非“近似圆球”,而是那些极细长、非凸、如同袜状的曲面结构——它们能无限延伸几何尺度,却几乎不增加体积。
陶哲轩后来总结:
AI确实让我更快地理解了问题——不是因为它解决了问题,而是因为它让我看清了为何解决不了。
这句话,也成为他此后所有AI实验的起点。
与此同时,在陶哲轩将AI带入科研现场的那几天,另一场“数字版登山赛”也在进行。
10月初,研究机构Epoch AI发布了一条简短推文——这次不是关于某个实验,而是一场“数学珠峰”的登顶公告。
这条信息背后,是全球最难的数学测试之一——FrontierMath Tier 4。
Epoch AI在官网形容其为“研究级问题集”,题目难度可让专家耗费数周甚至数月才有进展。
换言之,这是考验“能否思考”,而非“能否计算”。
从Gemini 2.5到GPT-5 Pro:三个月的登顶赛
7月,Epoch AI首次公开推出FrontierMath Tier 4,称其为“AI数学能力的珠穆朗玛峰”——一套专为测试模型极限推理能力而设计的研究级题库。
那时,尚未有任何模型能在其中站稳脚跟。
8月,谷歌的Gemini 2.5 Pro率先登场:
我们刚刚完成了Gemini 2.5 Pro在FrontierMath上的初步评估。此次使用旧版推理脚手架(scaffold),结果尚不最终。
到了9月,他们更新评分机制,引入“重试机制”——让AI能在推理失败后进行自我修正。
一切都像是在为10月的决战做准备。
就在陶哲轩还在与GPT-5 Pro“研究未解题”的前一天,谷歌Gemini 2.5 Deep Think刚刚创下纪录。
Epoch AI写道:
我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API,我们手动运行它。结果:新纪录!
10月11日,Epoch AI发出那条掀起波澜的推文——
FrontierMath Tier 4:终极对决!GPT-5 Pro创下新纪录(13%),比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。
左侧是Grok 4 Heavy(约5%),中间是Gemini 2.5(约12%),最右的GPT-5 Pro微微高出,停在13%的位置。
比Gemini 2.5 Deep Think多答对一道题(但差距在统计上不显著)。
这意味着,GPT-5 Pro虽然暂时“站在了山顶”,但它离真正的理解仍有整座山的距离。
这场拉锯更像是一场平局,只是GPT-5比Gemini 2.5早登顶几秒钟。
高分背后:算法的胜利,还是幻觉?
这场登顶赛其实揭示了另一个事实:AI的分数可以突破,但理解力依旧受限。
而这个问题,在陶哲轩的实测中被进一步放大。
胜出的一题,多半来自结构明确、符号化强的题型:代数、线性系统、基础分析。
而在几何构造、偏微分方程、非凸空间等题上,它几乎毫无建树。
Epoch AI自己也知道,这更像一次“算法微胜”,而非“数学突破”。
这次高分,依赖的是更高算力、更长推理链、更聪明的提示词。
于是问题变成:当分数升高,理解力也跟着升高了吗?
也许在算法的世界里,它赢了;在理解的世界里,它还没出发。
几个月后,他继续开展另一场实验——这次,不是考AI能不能解题,而是考他自己:当一切都能自动化,人类还在思考什么?
我发现,聪明也有尺度。
他写下这句话时,想起那次无解的几何题。AI在每个步骤上都完美,却在方向上失焦。
他终于明白——真正需要被训练的,或许是我们自己。
他举例说,一种名为
进一步放大尺度,问题变得更明显。
当AI协助完成整篇论文、或自动化地编纂一整本教材时,表面上的“效率提升”,常常意味着结构理解的退化。
数学的本质在于结构与关联——而结构的理解,恰恰需要“缓慢的人类思考”。
陶哲轩在后续贴文中写道:
最优的自动化程度既不是0%,也不是100%。
真正高效的状态,是在每个层面都留下人的空隙。如果让AI解决所有简单任务,我们将失去面对困难时的方向感。
这段话与他此前在GPT-5 Pro数学实验中的体会形成了呼应。
在小尺度上,AI能精准完成每一个步骤;在中尺度上,它倾向迎合而非反驳;而在大尺度上,它反而成为一种“反射镜”——让人更快看清自己思维的边界。
真正的突破,或许不在于让机器更像人,而在于让人类学会:以不同的尺度,重新理解“聪明”这件事。
陶哲轩的这场实验,其实为GPT-5的“13%高分”找到了解释。
分数说明它强大,但实验揭示了它强大的方式——不是洞察,而是枚举;不是理解,而是复现。
在FrontierMath的基准中,GPT-5能正确地完成符号化的推理题,却在需要构造直觉的题目上失效。
而在陶哲轩的试验里,它能像熟练的研究生那样把定义、公式和不等式都串联起来,却依然无法判断方向对不对。
这两个场景,像是科研的两端:一个是统计意义上的聪明,一个是语义意义上的理解。
GPT-5在前者领先,在后者止步。
陶哲轩在事后说,AI的表现让他想到早年的科研训练。
年轻时的他,也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页,直到最后发现:真正的问题,在逻辑之外。
AI让他重新体会了这种“思维的局部化”,也让他意识到:人类的优势,正是在那些AI还不懂的地方。
今天的GPT-5已能自洽地完成复杂的形式推理,但它仍缺乏“全局意识”——那种在面对模糊、不确定、甚至错误假设时的直觉。
陶哲轩称之为“human situational awareness(情境感知)”:
AI的聪明是线性的,人类的理解是拓扑的。
这句话后来被不少数学家转发。因为它揭示了一种新的分工边界:AI可以成为证明的发动机,而人类依然是结构的设计师。
它能把定理算完,却算不出“意义”。或许这正是GPT-5真正的突破:
它逼着我们重新思考,AI的极限,正是人类的起点。
数学的意义,从来不只是得出答案,而是弄清楚——为什么答案还不存在。
参考资料:
https://x.com/EpochAIResearch/status/1976685685349441826?s=19
https://mathstodon.xyz/@tao/115351400633010670
https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82
https://mathstodon.xyz/deck/@tao/114501120421010793
本文由主机测评网于2026-01-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260115769.html