OpenAI在短短两个月内,从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,这背后是通用AI技术的重大突破。
OpenAI的ChatGPT是否真有能力拿到国际奥数IMO金牌?还是只是自夸?他们背后的技术究竟有何玄机?
OpenAI的IMO金牌核心团队Alexander Wei、Noam Brown与Sheryl Hsu做客红杉Training Data播客,分享了如何在两个月内让AI取得IMO金牌🥇。
比如,在OpenAI内部,并非所有人都持乐观态度。某位研究员甚至打赌模型不会赢,赔率高达2:1,不过最终因为「不想影响士气」而放弃。
比赛当天凌晨1-5点,Noam Brown忙里偷闲小憩,而Alexander Wei则疯狂检查模型生成的证明🙈。
他们解释了如何确定AI是否拿到了金牌。为了评分,他们雇用了外部的IMO奖牌获得者。每份证明都由三名奖牌获得者评分,他们对正确性达成了一致意见。就这样,他们认为AI的确有能力拿到IMO金牌。
他们还透露证明像「外星语言」般独特,可读性不高。虽有优化能力,但为了透明,他们选择发布了原始输出。
如果你只想快速了解精华,先看下方要点;想读幕后故事,请继续往下。
在短短两个月内,这支仅三人的OpenAI精锐团队就实现了整个AI领域多年未竟的目标——在国际数学奥林匹克竞赛难题上达到金牌级水平。
这是通往ASI道路上最重要的里程碑之一。
这次突破之所以特别引人注目,不仅仅是因为AI的数学能力,更在于其背后的架构。这是一种通用技术,用于扩展测试时间计算,并处理那些远远超出竞赛数学范畴的难以验证的任务。
就在一年前,AI还只能进行短暂的数学推理,持续的时间仅十分之一分钟。而现在,已有AI系统能够持续推理长达100分钟。
超级智能的期望是,随着我们将推理时间扩展到数千甚至数十万小时,我们或许能够开始解决人类在数学、科学等领域中那些最伟大的未解难题。
团队还介绍了他们的独特方法:在难以验证的任务上,不用形式化验证工具,而使用通用强化学习技术。
新模型展现出惊人的自省能力——主动承认无法解答第六题,同时揭示了解决竞赛题与取得真正数学研究突破之间的悬殊差距。
IMO 2025第六题是本次竞赛难度最大的题目。确定马蒂尔达需要放置的最小瓷砖数量以确保网格的每一行和每一列都有且仅有一个单位正方形未被瓷砖覆盖。
关键亮点如下:
(1)通用技术胜过专用方案。
(2)小团队也能创造大成果:核心团队仅由3名研究人员组成,在最后2个月冲刺完成工作。
(3)自我意识提升AI可靠性:面对最难的题目时,模型能承认自己无法解决,而不是输出看似合理但错误的答案。
(4)测试时计算扩展助力深入推理:突破的关键在于将推理计算时间从几秒延长到几小时,使模型能更深入思考复杂问题。
(5)竞赛是进步的起点,而非终点。
国际数学奥林匹克(IMO)是全球高中生数学顶尖赛事。即便天才数学家陶哲轩也需要多年苦练才能取得金牌。然而OpenAI的这支小队却只用了两个月!
他们的秘密武器是什么?
在红杉资本的播客《Training Data》中,主持人Sonya Huang揭示了真相:他们用了「多智能体系统」的技术。
就是让多个AI「助手」同时工作,像一个超级团队分工协作。
有时,AI会编造错误答案且自信过头。但OpenAI的模型很特别——它能在解不出题时果断说「我不知道」。
尽管这次的进步令人兴奋,但距离千禧难题还很远。若按IMO题需要1.5小时思考估算,千禧级别需将思考时间放大上千倍,仍任重道远。
这次的突破是为了开发通用的推理技术。他们计划在其他系统中使用或已经在使用这些通用技术。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439285.html