当前位置：首页 > 科技资讯 > 正文

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工”

主机测评网
科技资讯
2026-03-09
190

【导读】人工智能的进化已经超越了单纯“答题”的阶段，开始涉足“创造经济价值”的领域。然而，它也可能一次为你生成17份PPT，让你淹没在数字垃圾中。下一代AI或许真的能超越人类专家，但更关键的问题是：它将替代你的工作，还是让你转变为“AI监督者”？

不知不觉间，人工智能已经跨越了一个重要的门槛：如今它们能够完成具有实际经济价值的工作任务。

然而，当你将一份企业备忘录交给Claude，让它制作一份PPT时，它却一口气生成了17个不同版本。

面对这种“过度用力”的AI，你可能会质疑：它真的具备实用性和经济价值吗？

对此，宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的见解。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第1张

智能体可完成具体任务，但尚无法替代完整工作

考虑到开发新一代AI所投入的巨量资源，无论是从字面还是象征意义上看，我们在精确衡量AI“智能”程度这件事上却意外地手段有限。

目前，最普遍的做法是将AI视为人类，通过标准化测试来统计其答题的正确率。

这类被称为“基准测试”的评估体系多达数十种，已成为衡量AI能力演进的核心标尺。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第2张

但AI真的具有实用性和经济价值吗？

要回答这个问题，不能仅凭直觉，必须依据数据。

OpenAI发布了一个名为GDPVAL的新基准测试。它不像传统的数学或常识测试，而是专门考察大模型在现实工作场景中能否创造经济价值。

这一次，测试非常“实战化”。

OpenAI组织了一个高规格的测试：

出题人：来自金融、法律、零售等行业的资深专家（平均14年经验）。
题目难度：人类专家平均需要4-7小时才能完成的真实业务任务。
评测方式：AI和人类专家同台竞技，由第三方专家进行盲测打分。

随后，OpenAI让各家的大模型与其他人类专家分别完成这些任务。第三组专家对结果进行评分，评分者不知道哪些答案来自AI，哪些来自人类，每个问题的评分时间大约需要一小时。

测试结果非常耐人寻味：人类专家赢了，但赢得很艰难（勉强获胜）。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第3张

图1：GDPVAL中，不同模型在对应任务上和人类具有相同或更好水平的比例。

同时，测试发现AI进步极快：较新的模型得分远超旧模型。

输在哪？有趣的是，大模型输给人类，并非因为“幻觉”或“胡言乱语”，主要是由于格式排版不佳或未能精确遵循指令——而这些恰恰是最容易修复的短板。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第4张

图2：不同领域中，大模型的表现好坏差异较大

如果当前趋势持续，下一代人工智能模型在这项测试中应超越人类专家。但这意味着AI已做好准备，来取代人类工作了吗？

答案是否定的。

这里的关键在于：GDPVAL测试的是“任务”（Task），而我们做的是“工作”（Job）。

任务是具体的：写一段代码、翻译一篇文章。
工作是复杂的：它包含了一连串的任务，更包含了人际沟通、决策博弈和对突发状况的处理。

只要AI还做不到像人类一样处理复杂互动，它就无法取代你的岗位。

但在这些高价值的任务中，AI什么时候能达到人类专家级水平？理论上，AI落地已无阻碍？

Ethan Mollick教授认为，AI智能体突然变得具有落地可能，确实让人大吃一惊。部分原因在于大家对智能体的错误认知。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第5张

智能体，工作“续航能力”指数级增长

以前，大家认为，AI想独立完成长任务非常难，比如写一个完整的软件。因为AI只要中间错一步，后面就全完了（误差累积）。

但剑桥大学等机构联手颠覆了这个认知：AI的能力并没有遇到瓶颈，反而在爆发。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第6张

预印本链接：https://arxiv.org/abs/2509.09677

剑桥大学Akshit Sinha等研究人员挖掘出四大原因：

1）收益非递减：变准一点点，能做的事会暴增

2）自我修正：它会停下来检查，不会被一个错误拖死

3）更长上下文：一次对话就能装下更长流程

4）更强模型能力：规划更稳，长任务更不崩

所有这一切意味着，AI 智能体能够应对那些需要更多步骤才能完成的任务，并且这一过程无需人工干预。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第7张

图3：大模型性能的提升不会引起收益递减的四个原因

因此，指标METR，从GPT-3到GPT-5，在五年间持续保持了指数级增长，显示出智能体能力增加的速度没有放缓。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第8张

图4：大模型能够稳定完成的任务所需的耗时变化

这意味着我们在不远的未来，就能够看到AI完成需要专业人士一天甚至一周时间才能完成的复杂任务。

人类决定AI的未来

然而，真正具有自主性智能体并不存在。

目前，我们需要决定如何使用它们，这将决定未来工作的许多方面。当下大多人关注的重点是用AI取代人类劳动所带来的风险，而且不难看出这将在未来几年成为一个主要问题，特别是对于那些只关注削减成本、而不是利用这些新能力来扩展或转型工作的，同时缺乏想象力的组织。

但在工作中使用AI，会带来的另一个非常有可能发生的风险是：我们会无意识地让智能体去完成一堆比我们当下所做的更多，但完全不必要的任务，例如根据一个文档做17个PPT。

我们如果不认真思考我们为什么要做工作，以及工作应该是什么样子，那么会被AI生成的「电子垃圾」大潮淹没。

那么，替代方案是什么？

OpenAI建议专家可以通过将任务委托给 AI ，将AI生成的结果当成初稿，由人类审查，从而与 AI 合作解决问题。如果AI生成的初稿不够好，用户可在提示词中提供纠正或优化提示词再试一次。如果那仍然不起作用，他们应该亲自完成工作。

如果专家遵循这种工作流程，论文估计他们可以加快40%的工作速度，降低60%的成本。更重要的是，他们可以保持对 AI 的控制权。

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工” AI智能体经济价值工作替代人类监工第9张

图5：不同大模型带来的速度和成本提升

具有经济实用性的智能体已经出现。例如通过让AI智能体去复现学术论文，可以应对学术界的「可复现性危机」。

尽管智能体能够完成的任务仍然有限，但它有经济价值，并且价值正在递增。

出现哪一个未来，区别不在于AI技术的演变，而在于我们选择如何使用AI。通过在我们的判断中决定什么值得做，而不仅仅是能做什么，我们可以确保这些工具使我们变得更有能力，而不仅仅是更有效率。

参考资料： https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

性价比服务器服务器教程

本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260329762.html

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工”

智能体可完成具体任务，但尚无法替代完整工作

智能体，工作“续航能力”指数级增长

人类决定AI的未来

清华开源TurboDiffusion：视频生成进入实时时代，单卡200倍加速！

阿里上线AI教育App“千问智学”，字节海外推AI办公工具“AnyGen”

AI跨越经济价值门槛：智能体已能完成实际工作，人类需转型“监工”

智能体可完成具体任务，但尚无法替代完整工作

智能体，工作“续航能力”指数级增长

人类决定AI的未来

清华开源TurboDiffusion：视频生成进入实时时代，单卡200倍加速！

阿里上线AI教育App“千问智学”，字节海外推AI办公工具“AnyGen”

相关文章