当前位置：首页 > 科技资讯 > 正文

AI大模型在天文奥赛展现惊人实力

主机测评网
科技资讯
2026-05-04
539

人工智能技术的飞速发展令人瞩目。近日，有网民评论：我们已很久没见到 AI 在某个领域取得如此引人注目的新进展了。

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第1张

回顾三个月前，OpenAI 宣布其推理模型在国际数学奥林匹克（IMO）竞赛中荣获金牌。

如今，大模型不仅在数学领域展现出强大的推理泛化能力，还在众多其他科学研究中大放异彩。

值得注意的是，当前顶尖的大模型在各类奥赛中频频取得令人瞠目结舌的成绩。

最近，一篇新发表的论文将国际天文学和天体物理学奥林匹克竞赛 (IOAA)作为基准测试，证明 GPT-5 和 Gemini 2.5 Pro 两大模型能在天文和天体物理学中取得奥赛金牌水平。

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第2张

OpenAI 的总裁兼联合创始人 Greg Brockman 转发了这项研究，激动得连 GPT 的名字都打错了：

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第3张

未来，当人类探索星辰大海时，AI 大模型的贡献也将留下痕迹。

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第4张

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第5张

论文标题：Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
论文链接：https://arxiv.org/abs/2510.05016

为何选择 IOAA 作为基准

大型语言模型的出现为 AI 在科学研究中，特别是天文学和天体物理学领域带来了新的可能性。尽管传统的天文学机器学习方法在模式识别任务（如目标分类和异常检测）中表现优异，但它们往往缺乏解决复杂科学问题所需的通用性和复杂推理能力。

当前用于评估天文学领域 LLM 的基准，如 AstroBench 和 Astro-QA，主要侧重于简单的问答形式，通过多项选择或简答题来测试天文学知识。这些评估未能涵盖真实天文学研究中不可或缺的复杂推理、创造性问题解决和扩展推导能力。本研究通过引入一个更严格、更全面的评估框架来解决这一关键差距。

研究人员选择 2022 年至 2025 年的国际天文奥林匹克竞赛（IOAA）试题作为主要基准。这一选择基于三个关键因素：

首先，与主要依赖选择题、简答题或判断题来检测天文知识的现有基准（如 AstroMLab 的 AstroBench 和 Astro-QA）相比，IOAA 试题具备更高的生态有效性，因为其考查的是实际天文研究中所需的复杂推理、创新性问题求解以及多步推导能力。

其次，根据官方大纲，IOAA 题目覆盖了广泛的天文主题，包括宇宙学、球面三角、恒星天体物理、天体力学、光度测量以及观测仪器学，从而保证了评测的全面性。

最后，IOAA 将理论物理、观测约束以及真实天文数据与数学推导结合在一起，提供了一种区别于 IMO、IPhO 和 IOI 等其他奥赛的新型评估方式，可用于检验 LLM 在科学问题求解方面的综合能力。

评估重点关注 IOAA 的两个组成部分：理论问题（共 49 个）和数据分析问题（共 8 个）。理论问题分为第一类（几何 / 空间，需要天球几何和球面三角学）和第二类（物理 / 数学，侧重天体物理计算，无需几何可视化）。由于 LLM 的数字性质，观测部分被排除在外。

金牌表现

AI大模型在天文奥赛展现惊人实力 AI大模型天文奥赛科学领域突破第6张

不同难度类别下，LLM 在 IOAA 理论题与数据分析题中的表现。所有分数均为相对于总分的标准化百分比。

理论考试

如表所示，GPT-5 和 Gemini 2.5 Pro 在理论考试中表现最为突出，比分领先其他模型 7～25 个百分点。具体来说，GPT-5 在 2022 年（93.0%）、2023 年（89.6%）和 2025 年（86.8%）中取得最高分，而 Gemini 2.5 Pro 则在 2024 年以 83.0% 位列第一。

尽管整体表现强劲，但我们注意到 GPT-5 在难题上的表现反而优于简单题与中等难度题。我们的分析显示，这种看似反常的波动主要由三方面因素造成：

• 每个难度等级的问题数量较少，导致模型表现的自然波动。简单题仅有 10 题，中等难度有 11 题，总分分别约为 185 分和 151 分，而总分为 1200 分，因此仅少量失误就会显著影响该难度区间的得分比例。

• GPT-5 在 2024 年试题中出现了多次关键性错误，其中很大一部分集中在需要几何推理与空间想象的问题（见第 3.2 节）。

• GPT-5 偶尔会在天体物理概念题上出错。例如，在 2024 年试题的第 9 题（归为简单题）中，GPT-5 因一次概念性错误叠加一次计算错误丢失了 18 分，而这相当于简单题总分的近 10%。

... (其余内容保持不变)