当前位置：首页 > 科技资讯 > 正文

AI在数学研究中的实测：突破、边界与人类角色

主机测评网
科技资讯
2026-01-07
171

十年前，著名数学家陶哲轩仍在黑板前亲自推导每一道几何公式，与学生共同探索数学奥秘。

十年后，他将同样的问题抛给一台智能机器——GPT-5 Pro。

他想探究：AI仅仅是高效的计算工具，还是正在迈向真正的知识理解？

几分钟后，屏幕闪烁显示：Minkowski公式、Willmore不等式、体积积分……它将这些推理整合成一篇近乎完美的论文草稿。

陶哲轩凝视着那串结果，既感到震撼，又略带失落：问题依然未解，只是被装饰得更加精致。

就在同一周，另一场数字化的“数学攀登”也在同步进行。

GPT-5 Pro在全球最难测试集FrontierMath上取得了13%的最高分。

分数虽然耀眼，但直觉却失效。它仿佛一个精通计算的天才少年，然而在真正的研究挑战前，依然停下了脚步。

于是，核心问题不再是“AI能否解题”，而是：它究竟理解了多少这个世界的本质？

陶哲轩的实测

AI在科研中的“三层表现”

十年前，陶哲轩还在黑板前与学生共同推演几何难题。

这位被誉为“天才中的天才”的数学家，21岁便成为最年轻的菲尔兹奖得主。

十年后，他决定亲自验证这台“创下13%纪录”的AI到底能做什么。

他没有选择标准题库，而是将其引入真实的科研场景——那里没有固定答案，只有开放性问题。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第1张

“我想看看AI能否在我不太熟悉的领域提出新颖思路。”于是，他在MathOverflow上发布了这个问题：

如果一个光滑嵌入在R³中的球面，其主曲率都不超过1，那么它所包围的体积是否至少与单位球一样大？——这并非我擅长的领域（微分几何），但我想观察AI能否提供新见解。

这是一个微分几何领域的未解难题。二维情况已有定理（Pestov–Ionin theorem）支持，但三维版本至今悬而未决。

这道难题三年前被提出，至今无人能解。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第2张

陶哲轩并非在测试AI，而是将其推向没有标准答案的科研前沿。

在与ChatGPT持续互动约40分钟后，他总结道：AI辅助在微观和宏观层面有所帮助，但在中观层面作用有限。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第3张

让我们一同看看，陶哲轩如何借助AI再次尝试解题。

AI作为计算型助手

他首先让GPT-5 Pro处理最简单的“星形（star-shaped）”情形。

几分钟内，AI便生成了推理链条，自动调用三条经典结论：

Minkowski积分公式： |Σ| = ∫Σ H s dA；

Willmore不等式： ∫Σ H² dA ≥ 4π；

体积公式： vol(V) = ⅓ ∫Σ s dA。

然后将它们整合成一句话：

若 |κ₁|, |κ₂| ≤ 1，则 vol(V) ≥ (4π/3)，即单位球体积。

AI不仅计算正确，还主动引用他未提及的Minkowski第一积分公式，甚至补充了两种证明路径。

陶哲轩在后续贴文中写道：

它能在我提供的线索下完成所有推导，这部分几乎无可挑剔。

这一阶段，AI像一台完美的“数学引擎”——能推导、能证明、能举例，但它仅在局部任务上表现出色。

从助手到镜面

他进一步试探：如果将曲面变形、略微偏离完美的球形，推理还能保持稳定吗？

AI迅速给出答案——准确、漂亮，但方向错误。

陶哲轩在日志中记录：

它开始顺从，而不再质疑。

这正是科研型AI的“镜像陷阱”：当方向错误时，它会修饰错误，甚至让错误看起来更“完美”。

虽然问题未解，这次实验仍让陶哲轩获得了新的洞察。

他意识到真正的障碍并非“近似圆球”，而是那些极细长、非凸、如同袜状的曲面结构——它们能无限延伸几何尺度，却几乎不增加体积。

陶哲轩后来总结：

AI确实让我更快地理解了问题——不是因为它解决了问题，而是因为它让我看清了为何解决不了。

这句话，也成为他此后所有AI实验的起点。

当GPT-5登上数学“珠峰”

只有13%成功率的登顶

与此同时，在陶哲轩将AI带入科研现场的那几天，另一场“数字版登山赛”也在进行。

10月初，研究机构Epoch AI发布了一条简短推文——这次不是关于某个实验，而是一场“数学珠峰”的登顶公告。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第4张

这条信息背后，是全球最难的数学测试之一——FrontierMath Tier 4。

Epoch AI在官网形容其为“研究级问题集”，题目难度可让专家耗费数周甚至数月才有进展。

换言之，这是考验“能否思考”，而非“能否计算”。

从Gemini 2.5到GPT-5 Pro：三个月的登顶赛

7月，Epoch AI首次公开推出FrontierMath Tier 4，称其为“AI数学能力的珠穆朗玛峰”——一套专为测试模型极限推理能力而设计的研究级题库。

那时，尚未有任何模型能在其中站稳脚跟。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第5张

8月，谷歌的Gemini 2.5 Pro率先登场：

我们刚刚完成了Gemini 2.5 Pro在FrontierMath上的初步评估。此次使用旧版推理脚手架（scaffold），结果尚不最终。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第6张

到了9月，他们更新评分机制，引入“重试机制”——让AI能在推理失败后进行自我修正。

一切都像是在为10月的决战做准备。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第7张

就在陶哲轩还在与GPT-5 Pro“研究未解题”的前一天，谷歌Gemini 2.5 Deep Think刚刚创下纪录。

Epoch AI写道：

我们在FrontierMath上评估了Gemini 2.5 Deep Think。由于没有API，我们手动运行它。结果：新纪录！

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第8张

10月11日，Epoch AI发出那条掀起波澜的推文——

FrontierMath Tier 4：终极对决！GPT-5 Pro创下新纪录（13%），比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第9张

左侧是Grok 4 Heavy（约5%），中间是Gemini 2.5（约12%），最右的GPT-5 Pro微微高出，停在13%的位置。

比Gemini 2.5 Deep Think多答对一道题（但差距在统计上不显著）。

这意味着，GPT-5 Pro虽然暂时“站在了山顶”，但它离真正的理解仍有整座山的距离。

这场拉锯更像是一场平局，只是GPT-5比Gemini 2.5早登顶几秒钟。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第10张

高分背后：算法的胜利，还是幻觉？

这场登顶赛其实揭示了另一个事实：AI的分数可以突破，但理解力依旧受限。

而这个问题，在陶哲轩的实测中被进一步放大。

胜出的一题，多半来自结构明确、符号化强的题型：代数、线性系统、基础分析。

而在几何构造、偏微分方程、非凸空间等题上，它几乎毫无建树。

Epoch AI自己也知道，这更像一次“算法微胜”，而非“数学突破”。

这次高分，依赖的是更高算力、更长推理链、更聪明的提示词。

于是问题变成：当分数升高，理解力也跟着升高了吗？

也许在算法的世界里，它赢了；在理解的世界里，它还没出发。

当“聪明”有了尺度

AI在科研中的边界

几个月后，他继续开展另一场实验——这次，不是考AI能不能解题，而是考他自己：当一切都能自动化，人类还在思考什么？

我发现，聪明也有尺度。

他写下这句话时，想起那次无解的几何题。AI在每个步骤上都完美，却在方向上失焦。

他终于明白——真正需要被训练的，或许是我们自己。

他举例说，一种名为的依赖类型匹配工具可以让他瞬间验证一行证明，但当连续几十行都交由它完成时，他反而更难看清逻辑全貌。

进一步放大尺度，问题变得更明显。

当AI协助完成整篇论文、或自动化地编纂一整本教材时，表面上的“效率提升”，常常意味着结构理解的退化。

数学的本质在于结构与关联——而结构的理解，恰恰需要“缓慢的人类思考”。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第11张

陶哲轩在后续贴文中写道：

最优的自动化程度既不是0%，也不是100%。

真正高效的状态，是在每个层面都留下人的空隙。如果让AI解决所有简单任务，我们将失去面对困难时的方向感。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第12张

这段话与他此前在GPT-5 Pro数学实验中的体会形成了呼应。

在小尺度上，AI能精准完成每一个步骤；在中尺度上，它倾向迎合而非反驳；而在大尺度上，它反而成为一种“反射镜”——让人更快看清自己思维的边界。

真正的突破，或许不在于让机器更像人，而在于让人类学会：以不同的尺度，重新理解“聪明”这件事。

人类的空隙

当AI停在“还不懂”的地方

陶哲轩的这场实验，其实为GPT-5的“13%高分”找到了解释。

分数说明它强大，但实验揭示了它强大的方式——不是洞察，而是枚举；不是理解，而是复现。

在FrontierMath的基准中，GPT-5能正确地完成符号化的推理题，却在需要构造直觉的题目上失效。

而在陶哲轩的试验里，它能像熟练的研究生那样把定义、公式和不等式都串联起来，却依然无法判断方向对不对。

这两个场景，像是科研的两端：一个是统计意义上的聪明，一个是语义意义上的理解。

GPT-5在前者领先，在后者止步。

AI在数学研究中的实测：突破、边界与人类角色 AI 数学研究 GPT-5 科研边界第13张

陶哲轩在事后说，AI的表现让他想到早年的科研训练。

年轻时的他，也曾花大量时间在局部细节中打转——证明一行、修正一式、推理一页，直到最后发现：真正的问题，在逻辑之外。

AI让他重新体会了这种“思维的局部化”，也让他意识到：人类的优势，正是在那些AI还不懂的地方。

今天的GPT-5已能自洽地完成复杂的形式推理，但它仍缺乏“全局意识”——那种在面对模糊、不确定、甚至错误假设时的直觉。

陶哲轩称之为“human situational awareness（情境感知）”：

AI的聪明是线性的，人类的理解是拓扑的。

这句话后来被不少数学家转发。因为它揭示了一种新的分工边界：AI可以成为证明的发动机，而人类依然是结构的设计师。

它能把定理算完，却算不出“意义”。或许这正是GPT-5真正的突破：

它逼着我们重新思考，AI的极限，正是人类的起点。

数学的意义，从来不只是得出答案，而是弄清楚——为什么答案还不存在。

参考资料：

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

性价比服务器云服务器服务器教程

本文由主机测评网于2026-01-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260115769.html

AI在数学研究中的实测：突破、边界与人类角色

陶哲轩的实测

AI在科研中的“三层表现”

AI作为计算型助手

从助手到镜面

当GPT-5登上数学“珠峰”

只有13%成功率的登顶

当“聪明”有了尺度

AI在科研中的边界

人类的空隙

当AI停在“还不懂”的地方

在Ubuntu上安装Windows系统

Nexterm：多服务器管理神器横空出世！（一站式搞定SSH、VNC、RDP，支持NAS、Windows、Linux）

AI在数学研究中的实测：突破、边界与人类角色

陶哲轩的实测

AI在科研中的“三层表现”

AI作为计算型助手

从助手到镜面

当GPT-5登上数学“珠峰”

只有13%成功率的登顶

当“聪明”有了尺度

AI在科研中的边界

人类的空隙

当AI停在“还不懂”的地方

在Ubuntu上安装Windows系统

Nexterm：多服务器管理神器横空出世！（一站式搞定SSH、VNC、RDP，支持NAS、Windows、Linux）

相关文章