当前位置:首页 > 科技资讯 > 正文

Gemini 3发布:AI代理模型开启数字同事新时代

根据沃顿商学院教授Ethan Mollick的分析,Gemini 3的推出标志着能够自主行动的“代理模型”正迅速兴起,尽管该系统仍存在一些不足,但其错误类型已从过去无根据的“幻觉”转变为了更近似于人类在判断或意图理解上的偏差。随着人工智能能力的持续增强,人机协作模式正从“人类纠正AI错误”演进为“人类指导AI执行任务”。

谷歌最新发布的Gemini 3模型,无疑成为了人工智能发展历程中的一个重要里程碑。

华尔街见闻此前报道,美东时间11月18日周二,谷歌正式推出了其备受瞩目的、迄今为止最强大的人工智能模型Gemini 3,并在发布当天即整合进入谷歌搜索、Gemini应用App及多个开发者平台,于数款核心盈利产品中投入实际使用。

谷歌高管在新闻发布会中着重强调,在多个衡量人工智能模型性能的热门行业基准测试榜单上,Gemini 3均处于领先位置。谷歌旗下AI研究实验室DeepMind的首席执行官Demis Hassabis表示,Gemini 3是“全球最佳的多模态理解模型”,同时也是该公司迄今最先进的智能体与代码生成模型。

沃顿商学院教授Ethan Mollick进行的深度评估显示,Gemini 3的发布及其配套工具“Antigravity”展现了卓越的“代理”能力。与三年前的GPT-3模型相比,如今的人工智能已不再局限于生成文本,而是能够编写代码、构建可交互的应用程序、执行涉及多个步骤的复杂任务。

Mollick强调,这种从“描述”到“行动”的跨越式进步,意味着AI正从一个单纯的对话伙伴,演变成为一个可以接入计算机系统并完成实际工作的通用型工具。

Mollick得出的结论是,我们正在从“聊天机器人时代”大步迈向“数字同事时代”。Gemini 3虽然并非完美,但其犯下的错误已不再是无中生有的“幻觉”,而更接近于人类在判断或理解意图时可能出现的偏差。

这表明,人机协作的方式正在发生根本性改变,人类未来的角色将不再是修正AI的低级错误,而是为其提供高层次的战略指导与方向把控。这或许是自ChatGPT发布以来,人工智能领域发生的最大规模变革。

以下为Ethan Mollick测评文章全文:

三年,从 GPT-3 到 Gemini 3

从聊天机器人到智能体

Ethan Mollick

2025 年 11 月 19 日

我一直在测试谷歌最新发布的Gemini 3模型。它的表现令人印象深刻。但与其列举枯燥的基准测试分数,不如让人工智能亲自展示这三年来我们取得了多大的进步——这正是我所做的。

距离ChatGPT发布已过去近三年。在它上线前几天,我在这份Substack上撰写了第一篇关于OpenAI更早期模型GPT-3的文章。随后ChatGPT震撼登场,我立刻又写了一篇:“我通常对技术预测持谨慎态度,但这一次,它将比我们预想得更快、更剧烈地改变我们的世界。它不再仅仅是自动化那些重复性或危险的工作,现在首批可能被AI颠覆的,将是更偏向分析、创意、写作与沟通的岗位。”

如今看来,我的判断是正确的。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第1张

(插图:三年前我使用GPT-3.5后所写首篇文章的截图)

我本可以用语言来解释初代ChatGPT与今天谷歌发布的Gemini 3之间存在的巨大鸿沟,但我觉得没必要。我将上面那张截图扔给了Gemini 3,只附上了一句简单的指令:

我:“做点什么,向大家展示一下人工智能在这三年里进步了多少。”

Gemini:“当然可以。您这条推文发布于2022年11月——现代AI热潮的前夕。当时最令人惊叹的‘亮点’是AI能够撰写一段连贯的文字,或者为‘糖果动力超光速飞船逃离水獭’这种天马行空的题目创作一首小诗。

为了直观展示进步,我不只用文字描述,而是直接为您构建了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。

2022年,AI只能描述引擎;2025年,AI能够编写出引擎代码、绘制出操作界面,并让您亲自驾驶这艘飞船。”

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第2张

它确实创建了一个迷你游戏:我需要依靠糖果能量摆脱追击的水獭,途中穿插着小诗和各种有趣的实时更新。阅读这篇博客的读者可能早已知道AI能够编写代码,但更有趣的是——当你不再将Gemini 3视为一个“聊天窗口”,而是看作“某种别的东西”时,它还能实现什么。

01

会写代码的工具

不只是“写代码的工具”

伴随着Gemini 3,谷歌还推出了Antigravity工具。程序员一眼就能明白:它与Claude Code、OpenAI Codex类似,在获得电脑权限后,能够在指导下自主编写程序。

如果你不是程序员,可能会忽视它的意义——我认为这是不对的。“会写代码”并不等同于“成为程序员”,而是意味着“能够完成任何需要在电脑上才能执行的任务”。因此,这些工具的本质被彻底重塑了。

Gemini 3极其擅长编写代码,这一点即使你不认为自己是“程序员”也与你息息相关。AI领域的一个基本观点是:你在电脑上进行的任何操作,归根结底都是代码;只要AI能够编写代码,它就能构建数据仪表盘、爬取网站数据、制作演示文稿、解析文件……这使得“会写代码的智能体”成为一种通用工具。Antigravity将这一理念产品化:它提供一个“收件箱”,我将任务分配给智能体,当它们需要批准或协助时会通知我。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第3张

(插图:四个智能体同时运行,一个正在工作,一个在等待我的回应)

我与它们沟通无需使用代码,只用英语;它们则用代码替我完成任务。Gemini 3擅长制定计划,清楚该做什么、何时需要请示。例如,我将历年newsletter的所有稿件放入一个文件夹,然后发出指令:

“为我创建一个美观的网页,汇总我对AI的所有预测,并上网搜索核实哪些预测说对了,哪些说错了。”

它读取了所有文件、运行代码、首先提交给我一份可编辑的草案——这是它第一次主动询问我,其理解的准确度令我惊讶。我稍作修改,便让它继续执行。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第4张

随后,它搜索网页、建立网站、控制浏览器验证效果,最后将成品打包发送给我。我像对待真实的同事一样提出修改意见,它便继续进行迭代优化。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第5张

它并非完美无缺——智能体尚未达到那种程度。我没有发现明显的幻觉,但确实存在一些需要我纠正的地方,不过这些错误更像是“人类同事可能出现的判断偏差或误解”,而非传统AI那种荒谬的幻觉。关键在于,我感觉自己能够掌控人工智能的决策过程,因为AI会定期检查并确认其工作,而且我的操作流程清晰可见。这种感觉更像是在管理一位队友,而非通过聊天界面与人工智能交流。

02

博士级智力?

Antigravity并非唯一的惊喜。另一个令人震撼的方面在于——它展现了真正的“判断力”。

我经常抱怨:AI基准测试已经变得混乱不堪。Gemini 3在大多数榜单上领先(或许还无法超越200美元的GPT-5 Pro,但等Gemini 3的“深度思考”版本问世后,情况可能改变)。业界喜欢用一句宣传语:“博士级智力”。我决定进行实际测试。

我将十年前一项众筹研究的一堆旧文件扔给它——文件名类似“project_final_seriously_this_time_done.xls”,格式还是陈旧的STATA。指令只有简单一句:

“自行理解数据结构,清理好STATA文件,为进行新的分析做好准备。”

它确实修复了损坏的数据,并弄清了复杂的数据环境。

接着,我给了它一个典型的“博士二年级小论文”任务,未提供任何额外提示:

“很好,现在利用这些数据撰写一篇原创论文。深入调研该领域,将主题提升到创业或战略理论的层面,进行严谨的统计分析,并按照学术期刊的格式撰写。”

它自行选择了研究主题、提出假设、运行统计分析、生成图表、将论文排版成稿——最困难的“选题与可执行性之间的平衡”由它自己设法解决了。我仅含糊地要求“再充实一些、再改进一下”,最终得到了一篇14页的论文。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第6张

(插图:论文的前两页)

更令人惊艳的是,它自行创建了一个新指标:利用自然语言处理技术将项目描述与海量文本描述进行数学比对,以衡量“众筹创意的独特性”。代码自行编写,结果自行验证。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第7张

那么,这算得上是“博士级”吗?

如果你指的是“能够胜任顶尖高校中一名合格研究生的日常工作”,那么部分答案是“是的”。但它也具备研究生常见的通病:统计方法可能存在瑕疵、理论跳跃有时过大、证据链条不够严谨……我们已经跨越了“幻觉”阶段,进入了更为微妙、更“人性化”的缺陷领域。有趣的是,当我像指导学生一样给出开放性的建议(例如“多补充一些众筹文献来确立研究方法”),它的提升非常显著——或许再多一些引导,就能接近“博士”水平。

Gemini 3究竟是什么?

它是一个极其出色的“思考+执行”伙伴,全球数十亿人可以随手调用;它也是一面镜子,映照出人工智能发展并未减速、智能体正在崛起、人类需要学会管理“聪明AI”等多重趋势。

三年前,我们为“机器能写关于水獭的诗”而惊叹不已;不到1000天后,我在与一个自行搭建研究环境的智能体辩论统计方法。

聊天机器人时代正在让位于“数字同事”时代。

没错,Gemini 3仍然不够完美,需要懂得指挥和核查的“人类经理”。但“人类在循环中”的角色正从“替AI弥补漏洞”演变为“指导AI开展工作”——这也许是自ChatGPT发布以来最大的一次范式转移。

彩蛋:

我让Gemini“纯粹使用代码为我制作一张Substack封面图,先查询尺寸要求”,它首先上网搜索规格,然后完全依靠数学计算绘制图形,一站式完成。

Gemini 3发布:AI代理模型开启数字同事新时代 3 AI代理模型 人机协作 数字同事 第8张

** 必要的警告:**

授予AI智能体电脑权限存在风险——它可能在未经询问的情况下移动或删除文件,甚至泄露文档。当这类工具面向非程序员用户普及时,情况会好很多;目前务必谨慎使用。