北京时间8月8日凌晨,OpenAI发布了其最新一代的GPT模型——GPT-5。但此次发布并未如前两代产品那样引发轰动,也未能开创模型新范式。
从发布的benchmark来看,GPT-5凭借个位数的优势领先其他厂商的2025年SOTA级别模型,但已失去以往的代差优势。
然而,此次发布中仍有一些亮点值得注意,接下来我们将简要分析这些亮点,并与关心AI的创业者和技术人员分享。
在发布会中,OpenAI的技术专家介绍,他们在GPT-5的训练中,利用GPT-4o、o3等前一代模型生成训练数据,使GPT-5获得了推理、规划、分解任务的能力。
这种数据与“充数”的数据不同,OpenAI设计了一个能让模型生成“正确类型数据”的“合成流程”,提高了合成数据在模型训练中的作用。
这种合成数据的新应用,让前一代先进模型生成高质量数据,使后一代的预训练模型越来越强,再通过强化学习加强推理模型的方式,为先进模型的训练提供了新的可能性。
Agent成为2025年AI应用领域最热的关键词,这一波热潮由OpenAI在2月发布的“Deep Research”功能掀起。根据OpenAI的技术人员分享,Agent不仅是模型+工具的组合,而且需要从训练阶段就让模型的能力为Agent优化。
因此,在2025年,以Agentic AI为目标的AI模型越来越多,无论是海外的o3、Claude4,还是国内的Qwen3、Kimi K2。
GPT-5也不例外。它在工具调用能力上进行了着重微调。在模拟真实世界场景的测试集Tau²中,它在电信领域的测试结果较o3和GPT-4.1都有长足的进步。
编程是AI模型的另一个重要能力。GPT-5在SWE-bench和Aider Polyglot等测试上与o3相比有了明显提高。在SWE-bench指标上,它仅领先直接竞争对手Claude 4.1 Opus 0.4%。
不过在实际编程能力上,GPT-5的进步会更大。它擅长智能体式编码且“修改bug”的能力更好。这两个提升分别对应商业化的复杂编程和个人化的“Vibe Coding”。
尽管OpenAI的CEO Sam Altman一再强调公司长期愿景是AGI,但从GPT-5及OpenAI自2025年发布的一系列产品和功能来看,其商业化属性进一步增强。
例如,在ChatGPT中发布了DeepResearch引领Agent热潮;对Canvas功能进行加强;为GPT-4o加入生图功能;还加入了学习模式(Study Mode)。这些升级提高了ChatGPT的用户数和收入。
进入2025年,我们见证了开源的DeepSeek R1席卷全球,Gemini 2.5Pro成为新的SOTA模型标杆。然而,大语言模型的进步速度停滞不前。
尽管Grok4和GPT-5表现出色,但进步是渐进式的。在当前技术范式下,大语言模型的性能进步可能已暂时遭遇瓶颈。
尽管如此,对于应用端的创业者来说未必是坏事。因为AI应用是快鱼吃慢鱼的游戏,拼速度、拼创新、拼用户感知,大厂在创业公司面前并无优势。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439160.html