当前位置：首页 > 科技资讯 > 正文

OpenAI GPT-5数学突破被证乌龙，研究员误将文献检索当创新

主机测评网
科技资讯
2026-01-11
669

“搬起自己的 GPT 石头砸了自己的脚。” Meta 首席 AI 科学家 Yann LeCun 用这句话犀利评价了 OpenAI 研究员们近日的尴尬行为。

OpenAI GPT-5数学突破被证乌龙，研究员误将文献检索当创新 GPT-5 埃尔德什问题虚假宣传第1张

事件起源于 OpenAI 研究员们对 GPT-5 一项所谓数学“突破”的高调庆祝，但在整个 AI 社区的质疑声中，他们迅速撤回了相关说法。连谷歌 DeepMind 首席执行官 Demis Hassabis 也批评其沟通存在疏漏。

GPT-5“突破”实为错误，研究员过度宣传遭打脸

最初，前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 在 X 平台上宣布，两位研究人员借助 GPT-5 找到了 10 个埃尔德什问题（Erdős problems）的答案。埃尔德什问题由匈牙利数学家 Paul Erdős 提出，涵盖一系列未解决和已解决的数学难题，以高难度著称，例如“不同距离问题”和“偏差问题”，部分问题还设有现金奖励以激励攻克。

10 月 18 日，OpenAI 研究员 Mark Sellke 正式宣称，经过数千次 GPT-5 查询，发现了 10 个原本“未解”的埃尔德什问题的答案，并对另外 11 个问题取得部分进展，甚至发现 Erdős 原始论文中的一个错误，该错误已被 Martínez 和 Roldán-Pensado 修正。

随后，OpenAI 其他研究员纷纷转发宣传。副总裁 Kevin Weil 确认：“GPT-5 解决了 10 个此前未解决的埃尔德什问题，并在另外 11 个问题上取得了进展。”

OpenAI GPT-5数学突破被证乌龙，研究员误将文献检索当创新 GPT-5 埃尔德什问题虚假宣传第2张

然而，这些帖子很快被删除。原本的表述暗示 GPT-5 独立生成了数学证明，可能是一项重大突破，但事实并非如此。

维护埃尔德什问题网站的数学家 Thomas Bloom 指出，帖子“存在严重失实”。他解释说：“GPT-5 只是找到了解决这些问题的参考文献，而这些文献是我个人之前未知的。网站上的‘未解决’状态仅代表我尚未了解相关论文。”

OpenAI GPT-5数学突破被证乌龙，研究员误将文献检索当创新 GPT-5 埃尔德什问题虚假宣传第3张

OpenAI 内部说法也转变了。Bubeck 承认：“（GPT-5）只找到了文献中已有的解决方案。”但他仍认为这是成就，强调检索文献的难度。Hassabis 评价：“这太尴尬了。”

误导性声明引发反噬，OpenAI面临多方质疑

相关推文已删除，研究员也承认错误，但事件让外界认为 OpenAI 行事轻率、压力巨大。人们质疑：为何顶尖研究员未核实事实就发布耸动言论？尤其是在这个炒作盛行、利益巨大的领域。

据外媒报道，社交平台上“OpenAIFail”等标签热度攀升，数天内超万条推文表达失望。OpenAI 估值指标在盘前交易中大幅下跌。

监管机构加强审查。美国联邦贸易委员会（FTC）调查 OpenAI 是否构成虚假广告，可能面临罚款。参议员 Maria Cantwell 呼吁提高透明度：“需确保 AI 进步不被夸大，以免削弱公众信任。”

此外，监管机构发现 OpenAI 通过未公开与 Epoch AI 的资金关系，获得对 FrontierMath 基准测试的优先访问权，引发公平竞争担忧。Epoch AI 助理总监确认 OpenAI 可访问大部分数据，仅靠“口头协议”防止训练使用，留下操纵空间。此前，AGI 怀疑论者 Gary Marcus 称 OpenAI 演示“具有操纵性”。

AI 推动数学领域的真实价值，陶哲轩予以认可

误导性宣传掩盖了有价值的信息：GPT-5 作为研究工具，在文献检索方面展现实用价值，尤其对于文献分散或术语不统一的问题。

著名数学家陶哲轩多次表示，AI 助手可以改变数学研究。

10 月 17 日，他强调 AI 在数学领域最富成效的应用不是攻克难题，而是用中等算力工具加速常规任务，如文献综述。人类经验需指导、验证 AI 输出，并整合到研究中。陶哲轩指出，AI 解决棘手问题仅有零散案例，且需大量资源。

文献综述是典型例子：若问题有公认名称和成熟社群，现有工具足以查找文献。通过引文网络，可从核心论文了解研究现状。

陶哲轩提及用 AI 查找埃尔德什问题文献的例子，并指出 AI 文献综述的好处：

文献检索结果可由人类验证，适合 AI 应用（使用者需有专业能力）。尤其在检索多个问题时，优势明显。AI 成功率无需 100%；只要相比传统方式，在同等投入下带来更多有用结果即可。学习使用 AI 工具的初始成本可通过多次使用分摊。因此，规模化检索时，AI 工具格外有吸引力。

人类进行文献综述时，未找到相关文献的结果常不记录（尽管有时说“据我们所知，这是首次”）。这可能因担心遗漏论文而尴尬。这导致问题：多次检索失败未报告，研究者重复投入；或误以为问题未解，实则方案早已存在。

但用 AI 驱动工具系统检索大量问题时，同时报告“阳性结果”（找到文献）和“阴性结果”更自然。例如：“在检索的 36 个问题中，24 个（66%）返回相关新结果，12 个（33%）返回已知或无关文献。”这有助于准确呈现文献现状。

此前，陶哲轩曾表示生成式 AI 可推动数学研究“工业化”，加速发展，但强调人类专业判断在审查、整合结果时关键。

参考链接：

https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/

https://mathstodon.xyz/@tao/115385022005130505