OpenAI最新推出的FrontierScience评测标准,旨在通过真实的博士级研究难题,从物理、化学、生物三大领域全面检验人工智能的科研潜力。残酷的现实是:在面对没有唯一标准答案的科研实战时,AI仍只是一个“顶级应试高手”,距离真正的科学家还有相当长的距离。
2025年12月16日,OpenAI正式发布了一套全新的评测基准——FrontierScience,用于衡量AI在物理、化学和生物三门学科中,能否达到接近人类专家的科学推理水平,而不仅仅是简单背诵知识点。
OpenAI在文中将科学工作描述为一个更接近“持续试错”的探索过程。
提出假设,设计实验,验证结果,推翻再重来,还要把不同领域的线索拼接成统一的图景。
模型能力越强,问题就越尖锐:AI能否将这种深层推理能力真正应用到实际的科研推进中?
OpenAI提到,过去一年里,他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现,但更重要的变化其实发生在实验室和办公室里。
研究者开始借助这些模型进行跨学科文献检索、跨语言阅读论文,甚至辅助推导复杂证明。
一些原本需要耗费几天甚至几周的工作,现在被压缩到几小时内就能完成一轮迭代。
为什么需要FrontierScience?OpenAI给出了一个对比。
2023年11月,GPQA这个由博士专家撰写、强调“谷歌搜不到”的科学题库发布时,GPT-4仅拿到39%,远低于专家基线74%。
两年后,GPT-5.2在同一基准上取得了92%的成绩。
当旧题库逐渐被刷穿,新的尺子就必须更长,否则你无法看清模型还能往哪个方向发展。
FrontierScience的设计更像是给模型抛出两种不同类型的“科学难关”。
一类偏竞赛风格,考验你在约束条件下能否干净利落地完成推理。
物理竞赛题示例
另一类更贴近真实研究现场,要求你在开放性问题中把思路走通,哪怕没有标准答案那样工整。
物理科研问题示例
这套评测总量超过700道文本型题目,其中160道属于“黄金组”(Gold Set)题目。
竞赛赛道有100道题,强调短答案形式,便于核验对错。
研究赛道包含60个原创研究子任务,由博士阶段或更资深的研究者设计,采用10分制评分,拿到至少7分才算通过。
题目质量得到了充分保障:
竞赛赛道与42位前国际奖牌得主或国家队教练合作,总计获得109枚奥赛奖牌;
研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等多个细分方向。
OpenAI还承认了一个不那么“中立”的细节。
两套题目在制作流程中会刻意淘汰OpenAI自家内部模型已经能答对的题,因此这套评测对OpenAI自家模型可能更为苛刻。
与此同时,他们开源了两套赛道的“黄金组”题目,其余题目保留,用于追踪数据污染。
OpenAI表示,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,于是他们用GPT-5充当模型判卷员,对照短答案逐项打分。
理想状态是请专家逐题批改,但现实是规模不允许,因此规则被设计成尽量客观且可被模型检查,并配了验证流程来校准难度与正确性。
成绩单上,OpenAI公布了一轮初步测试对比。
他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI指出,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上拿到76%,紧随其后。
更值得关注的是失败原因。
OpenAI从答题记录中总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。
另一个很朴素的观察也被写进正文:模型思考时间越长,准确率往往越高。
OpenAI对FrontierScience的边界也直言不讳。
它将科研过程切割成可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而不是科研的全景纪录片。
尤其是它不评估模型能否提出真正新颖的假设,也不覆盖它与多模态数据和现实实验系统打交道的能力。
接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,观察这些系统究竟能让科学家多做成了什么。
奥赛金牌≠一流科学家,AI距离成为真正能独当一面的一流科学家,还有很长的路要走。
参考资料:
https://openai.com/index/frontierscience/
本文由主机测评网于2026-03-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329207.html