当前位置:首页 > 科技资讯 > 正文

AI智能体革命:谷歌引领从对话到任务完成的范式转移

AI智能体革命:谷歌引领从对话到任务完成的范式转移 人工智能  智能体 Nano Banana Pro 基建投资 第1张

谷歌首席执行官桑达尔·皮查伊近期阐述了人工智能的未来愿景,其核心在于AI正从简单的对话交互转向“完成真实任务”的智能体(agentic)体验。这一转变以谷歌DeepMind发布的Nano Banana Pro(即Gemini 3 Pro Image)为重要标志,它不再仅是图像创作工具,而是能接入搜索、处理数据、完成工作任务的AI工作站。皮查伊同时强调,当前AI热潮并非泡沫,而是合理的、史无前例的“基建投资”阶段,谷歌和整个行业正在投入数万亿美元构建底层设施。然而,要实现AI的真正“好用”,谷歌必须解决能源、版权和信任这三大关键挑战,并致力于将图像AI打造成连接其全线产品的入口,而非孤立的应用。

当图像AI开始能“执行任务”,游戏规则就已彻底改变。

Google CEO Sundar Pichai在接受BBC采访时,反复强调一个关键词:任务。

未来12个月内,AI将开始处理更复杂的任务。

不再是让你与它聊天,而是让它代你完成实际工作。

与此同时,2025年11月20日,Google DeepMind正式发布了Nano Banana Pro(Gemini 3 Pro Image)。

这并非一次普通的模型升级。它标志着图像AI的角色转型:不再是Midjourney式的灵感激发,也不是Canva式的模板美学,而是一个能接入搜索、处理数据、完成工作任务的AI工作站。

Pichai追求的不是更精美的图片,而是更实用的工具。

第一节|1万亿美元:一场基建耐力赛

“AI要实用,资金应投向哪里?”

在BBC的采访中,Pichai给出了明确答案:一场前所未有的基建投资。

记者的第一个问题就很直接:这一轮AI热潮,会不会是泡沫?

Pichai的回答没有回避。他承认,有些投资可能过热,但整体是理性的。市场看到了真实的客户需求,而满足需求的能力还跟不上。因此,这波投资热潮是合理的。

这种场景并非首次出现。20多年前,互联网热潮也曾被质疑过度投资。但Pichai指出:

“当我们回顾互联网时代,显然存在许多过度投资。但它作为一项深刻的技术革命,已毋庸置疑。”

AI将会和互联网一样,引发一场根本性的变革。而当前阶段不是泡沫,是提前布局的关键时刻:

未来几年,我们将建成原本需要10到20年才能完成的基础设施。

他还透露了一组核心数据:

谷歌今年在AI基建上的支出将超过900亿美元

全行业在AI相关基础建设上的投资,已经累计超过1万亿美元

这不是宣传口径,而是他作为CEO向资本市场传递的核心信息:整个行业都在投入巨资建设AI基础设施,这是一场前所未有的建设期。

这场建设期的最终目标,是让产品真正“好用”。

Nano Banana Pro正是在这个背景下发布的:它是这1万亿美元投入周期的一个重要落地点。

但Pichai也没有过度自信。

当被问到谷歌是否比别的公司更安全、不怕泡沫破裂时,他明确回应:所有公司都可能受影响,谷歌也不例外。投资过多,该承担的风险一样要承担

只是他强调,谷歌走的是全链条路径:我们不是只做模型。我们从底层的物理设施,到推动AI前进的研究,再到实际应用。我们采用端到端的方法。

从芯片、数据中心、研究,到最终出现在搜索、YouTube、Android中的真实产品,谷歌试图覆盖完整的价值链。

这场耐力赛的终点,是让产品真正能被用户使用起来。

第二节|Nano Banana Pro:不止于绘图,而是执行任务

在采访中,Pichai多次提到:任务。

这也正是Nano Banana Pro与此前图像模型的最大不同。

✅AI的方向:从对话到行动

Pichai表示,AI的重心正从交流转向帮你做事。

“现在你可以和AI进行多轮对话,探讨各种话题。但接下来的12个月,你会看到它们开始执行更复杂的任务。”

他举了一个生活化的例子:比如我想为家人购买生日礼物,我可以让AI去完成这件事。

这种从对话到行动的转变,正是Pichai口中的智能体体验,也就是让AI成为能完成任务的智能体。

而Nano Banana Pro(Gemini 3 Pro Image)正朝这个方向发展,具体体现在官方公布的三大升级中:

第一,能理解实时信息

它可以连接谷歌搜索,调取最新数据:

你给出一个地点,它能生成天气图

你提供财报数据截图,它能制作图表

你指示“制作关于龟背竹的植物养护卡”,它就能拉取资料,自动设计出结构化图像

第二,能将内容直接转化为图像

最关键的能力是:

生成文字正确、无乱码的图像(以往许多图像AI会出现文字错乱)

支持多语言,不仅英文,还能用中文、韩文、印地语、阿拉伯语直接输出

甚至可以将一段故事变成电影式的分镜图

例如用户仅输入“讲述圣诞老人变成说唱歌手的故事”,Nano Banana Pro就能逐步生成巡演巴士、后台花絮、演出名单的图像内容。

它能理解你的意图,然后自动展开任务。

第三,能微调、能控制,像摄影师一样创作

普通人可能不熟悉色彩分级、景深控制、焦点调整,但Nano Banana Pro现在将这些功能做成了按钮级操作。

你可以:

改变图像的纵横比(比如1:1用于小红书,16:9用于PPT封面)

修改画面焦点(让花朵清晰、背景虚化)

调整光线(把白天变成夜景,把光打在人物脸上)

一句话总结:Nano Banana Pro,正成为普通人也能轻松使用的图像工作站。

第三节|图像AI的新角色:入口,而非工具

前文提到,Pichai强调谷歌走的是端到端的全链条路径。

那么在图像领域,这一战略如何落地?答案是:把图像做成入口,而不是独立应用。

✅Nano Banana Pro并非孤例

从发布信息看,Nano Banana Pro同时被部署到了:

Google Search(AI Mode)→ 抓取实时信息、制作图表

Google Ads → 生成带文案的广告图片

Workspace(Slides、Vids)→ 制作演示文稿、短视频内容

Gemini App → 消费者随手生成视觉内容

API和AI Studio → 开发者直接用于构建应用

这种全线铺开的方式,透露出谷歌的真正意图:让图像成为连接各个产品的一个入口。

✅为什么是图像?

在采访中,Pichai用一个具体场景说明AI应如何辅助工作: “放射科医生面对的扫描图像越来越多,每次扫描的图像也越来越复杂。AI工具可以帮助他们应对这种增长的需求。”

他不是在抽象讨论生产力提升,而是在关注:

医生怎么在大量图像中快速找出重点?

企业怎么用图表清晰展示财报?

普通人怎么在十几秒内看懂天气、比赛、食谱?

这些任务都需要图像。但旧的图像生成工具只能出图,不能直接用。

而Nano Banana Pro要解决的问题是:能不能让AI生成的图像,自己阐明用意,并能引导下一步行动?

✅ Nano Banana Pro的真正价值

三个场景可以说明它的功能:

当你想表达复杂信息时,它能帮你组织结构、渲染清晰、翻译成多语种

当你想让AI开始工作时,它先提供一个易于理解的画面

当你不懂提示词或设计时,它通过界面引导你选择灯光、焦点、场景角度

Pichai在回答AI会不会取代工作时,说过这样一段话:

“历史上许多工具,都是将人从重复劳动中解放出来。洗碗机、电冰箱都不是为了让人无事可做,而是为了让人有时间从事其他活动。”

Nano Banana Pro也是如此:不是让你变成艺术家,而是帮你节省表达和沟通的时间。

而这种将图像视为“入口”而非作品的思路,将成为谷歌之后布局AI产品的关键逻辑。

第四节|能源、版权、信任:三道必须跨越的关卡

Nano Banana Pro展示了图像AI如何从“美观”转向“实用”。但Pichai也清楚,要真正做到好用,还得跨越三道关卡。

第一关:能源——AI在加速,电力从何而来?

主持人提问尖锐:到这个十年末,数据中心的耗电量可能会超过整个印度,比所有电动车加起来还多50%。谷歌还坚持2030年净零碳排的目标吗?

他的回答是:目标不变,但进展确实受影响。行业增长比预期更快,但谷歌正在通过投资新能源来应对。

他提到三个细节,显示谷歌已经行动:

签署了全球最大的商业核聚变能源采购协议(与Commonwealth Fusion Systems)

投资小型核反应堆、地热能源、太阳能电池

2026年,谷歌在英国的数据中心将实现95%无碳电力覆盖

在他看来,这不应是一个非此即彼的选择题,AI和绿色能源可以协同推进。

第二关:版权——训练模型的内容,是否需要付费?

主持人接着提出更敏感的问题:

“有人说你们使用图书、音乐、新闻来训练模型,然后又将这些内容销售给世界。你愿意为这些内容付费吗?”

Pichai没有直接回答愿意或不愿意,他强调的是机制:我们让用户可以选择退出训练,并且在生成内容时尊重版权。我们也在与行业合作更新这一框架。

他以YouTube为例: “在视频时代,我们就为创作者提供了变现方式。现在到了AI时代,我们也会延续同样的做法。”

换言之,谷歌致力于与内容生态共赢。

第三关:信任——AI的输出,到底能否信任?

主持人也提到了披萨配胶水、议员被误指控的例子,Pichai承认问题确实存在:谷歌为提供准确信息投入了大量努力,但目前最先进的AI仍然可能出错。

他的应对策略是将AI模型与谷歌搜索结合使用,让Gemini连接搜索以提高准确性。

同时他强调:不能盲目信任AI,但应该有方法去理解它、验证它、使用它

在Nano Banana Pro的发布中,谷歌同步推出了应对措施:所有生成的图像都嵌入了SynthID数字水印,用户可以在Gemini App中上传图片,直接询问是否由谷歌AI生成。

这三件事,Pichai没有将它们视为简单的合规项或次要议题。

他认为,如果只依赖AI技术,信息生态就会失衡。所以新闻业很重要,教师很重要,医生的建议也很重要。

谷歌在这轮AI热潮中不只是追求速度,而是在做一项长远工作:将根基扎在能源、内容、信任这三个基础之上。

而这三道关卡,也将是谷歌未来所有AI产品必须跨越的门槛。

结语|入口思维:超越技术的一步

Pichai在采访的最后,分享了一个故事。

他让80多岁的父亲第一次乘坐无人驾驶车。我坐在后座,他在前座。他既惊讶又兴奋。这帮助我重新认识到,今天我们视为理所当然的许多进步,其实已经在改变生活。

Nano Banana Pro也在做同样的事。

它不是为了生成更好看的图片,而是为了让每个人在面对复杂信息时,能有一张图可以理解,有一个起点可以开始行动。

可视化、可操作、可理解。

这是AI走向下一阶段之前,最关键的一步。

入口,不在于技术有多强大,而在于人们是否会真正使用它。

参考资料:

https://www.youtube.com/watch?v=edTTeY1Zx-0&t=2198s

https://www.youtube.com/watch?v=BYx63PKKPvg&t=1s

https://blog.google/technology/ai/nano-banana-pro/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

https://x.com/venturetwins/status/1991522541475954988

https://www.theverge.com/news/824785/google-nano-banana-pro-try-free-examples-prices

来源:官方媒体/网络新闻