当前位置:首页 > 科技资讯 > 正文

从AGI到ASI:OpenAI引领智能革命新篇章

AI的进化之路,AGI已成历史,ASI正引领智能革命新篇章!OpenAI推出的GDPval评估体系,通过真实工作任务审视大模型潜力,揭示AI如何跨越实验室,迈向3万亿经济战场,助力人类解放日常琐事,拥抱未来创意。

AI下半场真的来了!

昔日AGI的辉煌已成过往,如今AI圈内热议的是超级人工智能ASI:AGI解放人类80%的日常工作;而ASI则超越人类智能的极限。

在a16z访谈中,OpenAI首席科学家Jakub Pachocki透露了研究路线图的关键一步:未来聚焦推理。未来五年,目标是打造自动化研究人员:AI自动发现新想法,自动化研究人员的工作,自动化机器学习研究。

理解AI潜力的最佳途径,并非预测未来,而是看看模型现在能做些什么

历史经验告诉我们,从互联网到智能手机,每一项重大技术的普及都需十年以上的时间。OpenAI希望以更透明的方式展示大模型如何服务现实世界。

因此,他们推出了全新的评估体系GDPval,以实际任务为基础审视AI进步轨迹,而非凭空猜测。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第1张

论文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

数据集:https://huggingface.co/datasets/openai/gdpval

在GDPval上,专家评审员将顶尖模型的输出与人类专家的工作进行了比较。哈佛大学教授、名誉校长Lawrence H. Summers——同时任OpenAI董事会成员,对新研究表示兴奋:

在多项实际任务上,即使只有有限的指导,AI的表现与人类相当甚至更好;人类与AI结合,能更高效;AI具有令人惊讶的能力,可用来评估并改进其性能。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第2张

OpenAI坦承:Claude Opus 4.1表现最佳,在接近一半的任务上与专家工作相当或更好,明显优于GPT-5。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第3张

但OpenAI的进步速度令人瞩目:一年内,GPT系列模型胜率几乎翻了一番。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第4张

GDPVal:衡量AI的3万亿美元影响

过去,大模型评估多集中在学术测试或编程挑战上。这些评估虽推动模型推理能力发展,但与现实工作场景有距离。

为填补这一鸿沟,OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——从传统的MMLU到实战意味的SWE-Bench、MLE-Bench、Paper-Bench,再到基于市场项目的SWE-Lancer。

GDPval正是这一演进路径上的关键节点。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第5张

这项评估直接来源于现实工作中的任务,覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第6张

整个任务集包含1,320个高度专业化任务(其中220为金标任务子集,已开源)。这些任务源于真实工作产出,如法律意见书、工程图纸等。

从AGI到ASI:OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第7张

每项任务都需通过多轮严格审核流程,确保其具备三点:即高度贴近实际工作场景;可由同领域专业人士独立完成;具备明确的评估标准。每项任务平均经历5轮专家评审

GDPval的独特之处在于,不仅任务内容贴近现实、形式多样,还具备极高的专业性和代表性。

与传统评估相比,GDPval要求模型处理完整参考材料与工作背景,输出形式也不仅限于文字。当然,GDPval目前还只是一个起点。

它帮助我们认识到大模型不仅能在实验室中解题,更可能在日常工作中扮演可靠辅助角色。

半数任务,AI已逼近专业水平

早期测试结果显示,当前领先的大模型在某些任务上表现已接近甚至媲美行业专家。在盲测中:

  • Claude Opus 4.1在美学表现方面最强
  • GPT-5在准确性方面领先

当前最先进的大模型输出质量已接近业内专家水平.其中,Claude Opus 4.1表现尤为突出——在接近一半的任务中,其产出被评为「与人类一样好」甚至「优于人类」。

如何优化模型以提升GDPval表现

为了验证是否可以提升GPT-5在GDPval任务中的表现,OpenAI增量训练了实验性的内部特定版GPT-5。结果证实,经过该训练流程后,模型性能确实得到了实质性提升。

最豪评分员:顶尖机构的资深专家

在GDPval任务中,为了评估模型的实际表现,OpenAI依赖资深从业者作为「评分员」。专家入选标准包括至少四年行业从业经验及专业认可度等。参与项目的专家平均拥有十四年从业经验。

AI与工作的未来图景

随着AI能力不断提升,劳动力市场将发生结构性变化。GDPval的早期结果已表明大模型在处理重复性、结构性强的任务时效率远超人类专家。但也要看到大多数工作不仅仅是可拆解的任务清单。