当前位置：首页 > 科技资讯 > 正文

Gemini 3发布：AI代理模型开启数字同事新时代

主机测评网
科技资讯
2026-01-25
831

根据沃顿商学院教授Ethan Mollick的分析，Gemini 3的推出标志着能够自主行动的“代理模型”正迅速兴起，尽管该系统仍存在一些不足，但其错误类型已从过去无根据的“幻觉”转变为了更近似于人类在判断或意图理解上的偏差。随着人工智能能力的持续增强，人机协作模式正从“人类纠正AI错误”演进为“人类指导AI执行任务”。

谷歌最新发布的Gemini 3模型，无疑成为了人工智能发展历程中的一个重要里程碑。

华尔街见闻此前报道，美东时间11月18日周二，谷歌正式推出了其备受瞩目的、迄今为止最强大的人工智能模型Gemini 3，并在发布当天即整合进入谷歌搜索、Gemini应用App及多个开发者平台，于数款核心盈利产品中投入实际使用。

谷歌高管在新闻发布会中着重强调，在多个衡量人工智能模型性能的热门行业基准测试榜单上，Gemini 3均处于领先位置。谷歌旗下AI研究实验室DeepMind的首席执行官Demis Hassabis表示，Gemini 3是“全球最佳的多模态理解模型”，同时也是该公司迄今最先进的智能体与代码生成模型。

沃顿商学院教授Ethan Mollick进行的深度评估显示，Gemini 3的发布及其配套工具“Antigravity”展现了卓越的“代理”能力。与三年前的GPT-3模型相比，如今的人工智能已不再局限于生成文本，而是能够编写代码、构建可交互的应用程序、执行涉及多个步骤的复杂任务。

Mollick强调，这种从“描述”到“行动”的跨越式进步，意味着AI正从一个单纯的对话伙伴，演变成为一个可以接入计算机系统并完成实际工作的通用型工具。

Mollick得出的结论是，我们正在从“聊天机器人时代”大步迈向“数字同事时代”。Gemini 3虽然并非完美，但其犯下的错误已不再是无中生有的“幻觉”，而更接近于人类在判断或理解意图时可能出现的偏差。

这表明，人机协作的方式正在发生根本性改变，人类未来的角色将不再是修正AI的低级错误，而是为其提供高层次的战略指导与方向把控。这或许是自ChatGPT发布以来，人工智能领域发生的最大规模变革。

以下为Ethan Mollick测评文章全文：

三年，从 GPT-3 到 Gemini 3

从聊天机器人到智能体

Ethan Mollick

2025 年 11 月 19 日

我一直在测试谷歌最新发布的Gemini 3模型。它的表现令人印象深刻。但与其列举枯燥的基准测试分数，不如让人工智能亲自展示这三年来我们取得了多大的进步——这正是我所做的。

距离ChatGPT发布已过去近三年。在它上线前几天，我在这份Substack上撰写了第一篇关于OpenAI更早期模型GPT-3的文章。随后ChatGPT震撼登场，我立刻又写了一篇：“我通常对技术预测持谨慎态度，但这一次，它将比我们预想得更快、更剧烈地改变我们的世界。它不再仅仅是自动化那些重复性或危险的工作，现在首批可能被AI颠覆的，将是更偏向分析、创意、写作与沟通的岗位。”

如今看来，我的判断是正确的。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第1张

（插图：三年前我使用GPT-3.5后所写首篇文章的截图）

我本可以用语言来解释初代ChatGPT与今天谷歌发布的Gemini 3之间存在的巨大鸿沟，但我觉得没必要。我将上面那张截图扔给了Gemini 3，只附上了一句简单的指令：

我：“做点什么，向大家展示一下人工智能在这三年里进步了多少。”

Gemini：“当然可以。您这条推文发布于2022年11月——现代AI热潮的前夕。当时最令人惊叹的‘亮点’是AI能够撰写一段连贯的文字，或者为‘糖果动力超光速飞船逃离水獭’这种天马行空的题目创作一首小诗。

为了直观展示进步，我不只用文字描述，而是直接为您构建了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。

2022年，AI只能描述引擎；2025年，AI能够编写出引擎代码、绘制出操作界面，并让您亲自驾驶这艘飞船。”

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第2张

它确实创建了一个迷你游戏：我需要依靠糖果能量摆脱追击的水獭，途中穿插着小诗和各种有趣的实时更新。阅读这篇博客的读者可能早已知道AI能够编写代码，但更有趣的是——当你不再将Gemini 3视为一个“聊天窗口”，而是看作“某种别的东西”时，它还能实现什么。

01 会写代码的工具

不只是“写代码的工具”

伴随着Gemini 3，谷歌还推出了Antigravity工具。程序员一眼就能明白：它与Claude Code、OpenAI Codex类似，在获得电脑权限后，能够在指导下自主编写程序。

如果你不是程序员，可能会忽视它的意义——我认为这是不对的。“会写代码”并不等同于“成为程序员”，而是意味着“能够完成任何需要在电脑上才能执行的任务”。因此，这些工具的本质被彻底重塑了。

Gemini 3极其擅长编写代码，这一点即使你不认为自己是“程序员”也与你息息相关。AI领域的一个基本观点是：你在电脑上进行的任何操作，归根结底都是代码；只要AI能够编写代码，它就能构建数据仪表盘、爬取网站数据、制作演示文稿、解析文件……这使得“会写代码的智能体”成为一种通用工具。Antigravity将这一理念产品化：它提供一个“收件箱”，我将任务分配给智能体，当它们需要批准或协助时会通知我。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第3张

（插图：四个智能体同时运行，一个正在工作，一个在等待我的回应）

我与它们沟通无需使用代码，只用英语；它们则用代码替我完成任务。Gemini 3擅长制定计划，清楚该做什么、何时需要请示。例如，我将历年newsletter的所有稿件放入一个文件夹，然后发出指令：

“为我创建一个美观的网页，汇总我对AI的所有预测，并上网搜索核实哪些预测说对了，哪些说错了。”

它读取了所有文件、运行代码、首先提交给我一份可编辑的草案——这是它第一次主动询问我，其理解的准确度令我惊讶。我稍作修改，便让它继续执行。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第4张

随后，它搜索网页、建立网站、控制浏览器验证效果，最后将成品打包发送给我。我像对待真实的同事一样提出修改意见，它便继续进行迭代优化。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第5张

它并非完美无缺——智能体尚未达到那种程度。我没有发现明显的幻觉，但确实存在一些需要我纠正的地方，不过这些错误更像是“人类同事可能出现的判断偏差或误解”，而非传统AI那种荒谬的幻觉。关键在于，我感觉自己能够掌控人工智能的决策过程，因为AI会定期检查并确认其工作，而且我的操作流程清晰可见。这种感觉更像是在管理一位队友，而非通过聊天界面与人工智能交流。

02 博士级智力？

Antigravity并非唯一的惊喜。另一个令人震撼的方面在于——它展现了真正的“判断力”。

我经常抱怨：AI基准测试已经变得混乱不堪。Gemini 3在大多数榜单上领先（或许还无法超越200美元的GPT-5 Pro，但等Gemini 3的“深度思考”版本问世后，情况可能改变）。业界喜欢用一句宣传语：“博士级智力”。我决定进行实际测试。

我将十年前一项众筹研究的一堆旧文件扔给它——文件名类似“project_final_seriously_this_time_done.xls”，格式还是陈旧的STATA。指令只有简单一句：

“自行理解数据结构，清理好STATA文件，为进行新的分析做好准备。”

它确实修复了损坏的数据，并弄清了复杂的数据环境。

接着，我给了它一个典型的“博士二年级小论文”任务，未提供任何额外提示：

“很好，现在利用这些数据撰写一篇原创论文。深入调研该领域，将主题提升到创业或战略理论的层面，进行严谨的统计分析，并按照学术期刊的格式撰写。”

它自行选择了研究主题、提出假设、运行统计分析、生成图表、将论文排版成稿——最困难的“选题与可执行性之间的平衡”由它自己设法解决了。我仅含糊地要求“再充实一些、再改进一下”，最终得到了一篇14页的论文。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第6张

（插图：论文的前两页）

更令人惊艳的是，它自行创建了一个新指标：利用自然语言处理技术将项目描述与海量文本描述进行数学比对，以衡量“众筹创意的独特性”。代码自行编写，结果自行验证。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第7张

那么，这算得上是“博士级”吗？

如果你指的是“能够胜任顶尖高校中一名合格研究生的日常工作”，那么部分答案是“是的”。但它也具备研究生常见的通病：统计方法可能存在瑕疵、理论跳跃有时过大、证据链条不够严谨……我们已经跨越了“幻觉”阶段，进入了更为微妙、更“人性化”的缺陷领域。有趣的是，当我像指导学生一样给出开放性的建议（例如“多补充一些众筹文献来确立研究方法”），它的提升非常显著——或许再多一些引导，就能接近“博士”水平。

Gemini 3究竟是什么？

它是一个极其出色的“思考+执行”伙伴，全球数十亿人可以随手调用；它也是一面镜子，映照出人工智能发展并未减速、智能体正在崛起、人类需要学会管理“聪明AI”等多重趋势。

三年前，我们为“机器能写关于水獭的诗”而惊叹不已；不到1000天后，我在与一个自行搭建研究环境的智能体辩论统计方法。

聊天机器人时代正在让位于“数字同事”时代。

没错，Gemini 3仍然不够完美，需要懂得指挥和核查的“人类经理”。但“人类在循环中”的角色正从“替AI弥补漏洞”演变为“指导AI开展工作”——这也许是自ChatGPT发布以来最大的一次范式转移。

彩蛋：

我让Gemini“纯粹使用代码为我制作一张Substack封面图，先查询尺寸要求”，它首先上网搜索规格，然后完全依靠数学计算绘制图形，一站式完成。

Gemini 3发布：AI代理模型开启数字同事新时代 3 AI代理模型人机协作数字同事第8张