当前位置：首页 > 科技资讯 > 正文

从AGI到ASI：OpenAI引领智能革命新篇章

主机测评网
科技资讯
2026-05-01
763

AI的进化之路，AGI已成历史，ASI正引领智能革命新篇章！OpenAI推出的GDPval评估体系，通过真实工作任务审视大模型潜力，揭示AI如何跨越实验室，迈向3万亿经济战场，助力人类解放日常琐事，拥抱未来创意。

AI下半场真的来了！

昔日AGI的辉煌已成过往，如今AI圈内热议的是超级人工智能ASI：AGI解放人类80%的日常工作；而ASI则超越人类智能的极限。

在a16z访谈中，OpenAI首席科学家Jakub Pachocki透露了研究路线图的关键一步：未来聚焦推理。未来五年，目标是打造自动化研究人员：AI自动发现新想法，自动化研究人员的工作，自动化机器学习研究。

理解AI潜力的最佳途径，并非预测未来，而是看看模型现在能做些什么。

历史经验告诉我们，从互联网到智能手机，每一项重大技术的普及都需十年以上的时间。OpenAI希望以更透明的方式展示大模型如何服务现实世界。

因此，他们推出了全新的评估体系GDPval，以实际任务为基础审视AI进步轨迹，而非凭空猜测。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第1张

论文地址：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

数据集：https://huggingface.co/datasets/openai/gdpval

在GDPval上，专家评审员将顶尖模型的输出与人类专家的工作进行了比较。哈佛大学教授、名誉校长Lawrence H. Summers——同时任OpenAI董事会成员，对新研究表示兴奋：

在多项实际任务上，即使只有有限的指导，AI的表现与人类相当甚至更好；人类与AI结合，能更高效；AI具有令人惊讶的能力，可用来评估并改进其性能。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第2张

OpenAI坦承：Claude Opus 4.1表现最佳，在接近一半的任务上与专家工作相当或更好，明显优于GPT-5。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第3张

但OpenAI的进步速度令人瞩目：一年内，GPT系列模型胜率几乎翻了一番。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第4张

GDPVal：衡量AI的3万亿美元影响

过去，大模型评估多集中在学术测试或编程挑战上。这些评估虽推动模型推理能力发展，但与现实工作场景有距离。

为填补这一鸿沟，OpenAI逐步开发出一系列更贴近实际、更具经济意义的评估方法——从传统的MMLU到实战意味的SWE-Bench、MLE-Bench、Paper-Bench，再到基于市场项目的SWE-Lancer。

GDPval正是这一演进路径上的关键节点。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第5张

这项评估直接来源于现实工作中的任务，覆盖了9大行业、44种职业、每年共计3万亿美元经济价值。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第6张

整个任务集包含1,320个高度专业化任务（其中220为金标任务子集，已开源）。这些任务源于真实工作产出，如法律意见书、工程图纸等。

从AGI到ASI：OpenAI引领智能革命新篇章 AGI ASI OpenAI GDPval 第7张

每项任务都需通过多轮严格审核流程，确保其具备三点：即高度贴近实际工作场景；可由同领域专业人士独立完成；具备明确的评估标准。每项任务平均经历5轮专家评审。

GDPval的独特之处在于，不仅任务内容贴近现实、形式多样，还具备极高的专业性和代表性。

与传统评估相比，GDPval要求模型处理完整参考材料与工作背景，输出形式也不仅限于文字。当然，GDPval目前还只是一个起点。

它帮助我们认识到大模型不仅能在实验室中解题，更可能在日常工作中扮演可靠辅助角色。

半数任务，AI已逼近专业水平

早期测试结果显示，当前领先的大模型在某些任务上表现已接近甚至媲美行业专家。在盲测中：

Claude Opus 4.1在美学表现方面最强
GPT-5在准确性方面领先

当前最先进的大模型输出质量已接近业内专家水平.其中，Claude Opus 4.1表现尤为突出——在接近一半的任务中，其产出被评为「与人类一样好」甚至「优于人类」。

如何优化模型以提升GDPval表现

为了验证是否可以提升GPT-5在GDPval任务中的表现，OpenAI增量训练了实验性的内部特定版GPT-5。结果证实，经过该训练流程后，模型性能确实得到了实质性提升。

最豪评分员：顶尖机构的资深专家

在GDPval任务中，为了评估模型的实际表现，OpenAI依赖资深从业者作为「评分员」。专家入选标准包括至少四年行业从业经验及专业认可度等。参与项目的专家平均拥有十四年从业经验。

AI与工作的未来图景

随着AI能力不断提升，劳动力市场将发生结构性变化。GDPval的早期结果已表明大模型在处理重复性、结构性强的任务时效率远超人类专家。但也要看到大多数工作不仅仅是可拆解的任务清单。

性价比vps 性价比服务器阿里云服务器

本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260541989.html

从AGI到ASI：OpenAI引领智能革命新篇章

GDPVal：衡量AI的3万亿美元影响

半数任务，AI已逼近专业水平

如何优化模型以提升GDPval表现

最豪评分员：顶尖机构的资深专家

AI与工作的未来图景

奇瑞汽车28年终上市，出海领先但电动化挑战严峻

养元饮品跨界投资半导体，欲转型突破主业瓶颈

从AGI到ASI：OpenAI引领智能革命新篇章

GDPVal：衡量AI的3万亿美元影响

半数任务，AI已逼近专业水平

如何优化模型以提升GDPval表现

最豪评分员：顶尖机构的资深专家

AI与工作的未来图景

奇瑞汽车28年终上市，出海领先但电动化挑战严峻

养元饮品跨界投资半导体，欲转型突破主业瓶颈

相关文章