人工智能技术的飞速发展令人瞩目。近日,有网民评论:我们已很久没见到 AI 在某个领域取得如此引人注目的新进展了。
回顾三个月前,OpenAI 宣布其推理模型在国际数学奥林匹克(IMO)竞赛中荣获金牌。
如今,大模型不仅在数学领域展现出强大的推理泛化能力,还在众多其他科学研究中大放异彩。
值得注意的是,当前顶尖的大模型在各类奥赛中频频取得令人瞠目结舌的成绩。
最近,一篇新发表的论文将国际天文学和天体物理学奥林匹克竞赛 (IOAA)作为基准测试,证明 GPT-5 和 Gemini 2.5 Pro 两大模型能在天文和天体物理学中取得奥赛金牌水平。
OpenAI 的总裁兼联合创始人 Greg Brockman 转发了这项研究,激动得连 GPT 的名字都打错了:
未来,当人类探索星辰大海时,AI 大模型的贡献也将留下痕迹。
大型语言模型的出现为 AI 在科学研究中,特别是天文学和天体物理学领域带来了新的可能性。尽管传统的天文学机器学习方法在模式识别任务(如目标分类和异常检测)中表现优异,但它们往往缺乏解决复杂科学问题所需的通用性和复杂推理能力。
当前用于评估天文学领域 LLM 的基准,如 AstroBench 和 Astro-QA,主要侧重于简单的问答形式,通过多项选择或简答题来测试天文学知识。这些评估未能涵盖真实天文学研究中不可或缺的复杂推理、创造性问题解决和扩展推导能力。本研究通过引入一个更严格、更全面的评估框架来解决这一关键差距。
研究人员选择 2022 年至 2025 年的国际天文奥林匹克竞赛(IOAA)试题作为主要基准。这一选择基于三个关键因素:
首先,与主要依赖选择题、简答题或判断题来检测天文知识的现有基准(如 AstroMLab 的 AstroBench 和 Astro-QA)相比,IOAA 试题具备更高的生态有效性,因为其考查的是实际天文研究中所需的复杂推理、创新性问题求解以及多步推导能力。
其次,根据官方大纲 ,IOAA 题目覆盖了广泛的天文主题,包括宇宙学、球面三角、恒星天体物理、天体力学、光度测量以及观测仪器学,从而保证了评测的全面性。
最后,IOAA 将理论物理、观测约束以及真实天文数据与数学推导结合在一起,提供了一种区别于 IMO、IPhO 和 IOI 等其他奥赛的新型评估方式,可用于检验 LLM 在科学问题求解方面的综合能力。
评估重点关注 IOAA 的两个组成部分:理论问题(共 49 个)和数据分析问题(共 8 个)。理论问题分为第一类(几何 / 空间,需要天球几何和球面三角学)和第二类(物理 / 数学,侧重天体物理计算,无需几何可视化)。由于 LLM 的数字性质,观测部分被排除在外。
不同难度类别下,LLM 在 IOAA 理论题与数据分析题中的表现。所有分数均为相对于总分的标准化百分比。
如表所示,GPT-5 和 Gemini 2.5 Pro 在理论考试中表现最为突出,比分领先其他模型 7~25 个百分点。具体来说,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 则在 2024 年以 83.0% 位列第一。
尽管整体表现强劲,但我们注意到 GPT-5 在难题上的表现反而优于简单题与中等难度题。我们的分析显示,这种看似反常的波动主要由三方面因素造成:
• 每个难度等级的问题数量较少,导致模型表现的自然波动。简单题仅有 10 题,中等难度有 11 题,总分分别约为 185 分和 151 分,而总分为 1200 分,因此仅少量失误就会显著影响该难度区间的得分比例。
• GPT-5 在 2024 年试题中出现了多次关键性错误,其中很大一部分集中在需要几何推理与空间想象的问题(见第 3.2 节)。
• GPT-5 偶尔会在天体物理概念题上出错。例如,在 2024 年试题的第 9 题(归为简单题)中,GPT-5 因一次概念性错误叠加一次计算错误丢失了 18 分,而这相当于简单题总分的近 10%。
... (其余内容保持不变)
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542556.html