当前位置:首页 > 科技资讯 > 正文

谷歌nano banana图像模型:AI创意生成的全新革命

【导读】谷歌最新推出的图像模型nano banana引发了全球关注,它不仅能够智能融合多张图片以构建全新视觉画面,还能深度理解地理环境、建筑构造与物理结构,甚至将二维平面地图转化为生动三维景观。依托Gemini模型的世界知识储备与交错生成技术,nano banana实现了具备“记忆功能”的多轮次创作,在保证极高一致性的同时展现出非凡创造力。这一突破正在重新定义AI图像生成的边界,也让“AI创意伙伴”的未来充满了无限想象空间。

令人惊讶的是,AI领域仿佛一夜之间掀起了“纳米香蕉革命”的热潮。

谷歌可能未曾预料,其新发布的图像模型会迅速引爆全球科技社区!

近期,nano banana的火爆程度令人联想到数月前OpenAI“吉卜力风格”引发的创作盛况。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第1张

这张由nano banana生成的图片中,超人COSPLAY形象堪称惊艳

但此次谷歌nano banana带来了更具颠覆性的功能体验,不同于吉卜力风格的单一生成模式,其多样化玩法估计连谷歌团队都惊叹于网友们的极致创意

例如,用户可以上传最多13张图片,然后指示nano banana将它们无缝整合

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第2张

你能想象上方合成图是由下方这些“视觉零件”组合而成的吗?

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第3张

根据谷歌官方介绍,nano banana不仅仅是一个图像生成模型,更融入了Gemini强大的世界知识体系。

这使得nano banana的视觉理解能力跃升至全新维度(文末附有谷歌团队专访,揭秘模型背后的前沿技术路径)。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第4张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第5张

既然能够拼接物理世界的物体,那么“拼接”人物动作是否可行?

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第6张

这完全达到了专业分镜水准!随后网友利用海螺AI工具制作了以下短片。

感觉利用AI拍摄电影已并非遥不可及!

由于nano banana继承了Gemini的世界知识,用户仅需上传现实场景截图,即可让它自动标注内容。

例如在画面中精准标注东京塔。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第7张

还能标注更多建筑细节。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第8张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第9张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第10张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第11张

甚至能模拟机器人视角,勾勒人物轮廓,瞬间带来终结者般的赛博朋克感!

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第12张

最令人称奇的是,nano banana能够从“二维地图”中解读出“三维世界”。

网友们尤其热衷于用纳米香蕉演绎谷歌地图中“红色箭头所见景象”。

例如从西侧视角看到的金门大桥。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第13张

或从东侧视角看到的东京塔。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第14张

更神奇的是,纳米香蕉似乎真正理解了地理学中的等高线原理,能够直接从等高线图生成真实的地形地貌。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第15张

甚至连以往令人头疼的工程制图视角,都能轻松驾驭。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第16张

可以将任意图像渲染为上、下、左、右、前、后六个视图。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第17张

甚至可以利用nano banana为自己定制虚拟试衣,任何设计元素都能“穿戴”在身上。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第18张

不仅无需真实衣物,连人物动作也能直接复制。

X平台用户@ZHO_ZHO_ZHO通过人像结合动作框架,直接生成了摄影棚级别的拍摄效果。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第19张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第20张

逆向操作同样可行,可以从图像中提取现实建筑的物理结构。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第21张

此外,还能进行“逆向”图像处理:先将原图转为黑白线稿,然后选择心仪颜色,最终为图片重新上色。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第22张

nano banana在线稿转化与色彩填充方面表现出极高的精准度

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第23张

当然,创意脑洞与趣味整蛊永远不会缺席。

例如让奥特曼身着运动服表演鞍马动作。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第24张

除了创造“新”图像,nano banana还能修复“老”照片。

它可以补充破损与折痕,还原被时光模糊的清晰画面。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第25张

由于纳米香蕉nano banana热度空前,甚至有网友呼吁为命名工程师加薪。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第26张

此前nano banana在LMArena平台上线后迅速风靡。

在最终盲测中,Gemini 2.5 Flash Image版本成绩遥遥领先。

谷歌这款nano banana明显区别于以往的图像模型,例如GPT-4o原生图像模型,其能力确实迈上了新台阶。

纳米香蕉背后是否采用了新技术与新体系?

恰逢其时,谷歌DeepMind团队近期接受了专访,揭开了模型背后的故事。

“纳米香蕉革命”幕后技术首次公开

nano banana项目负责人与研究员接受了DeepMind产品负责人Logan Kilpatrick的播客采访,揭示了模型背后的技术密码:

  • 模型能够访问多模态上下文并生成图像。因此,它可以参考之前的图像,尝试生成与之截然不同的新内容。
  • 交错生成技术的奇妙之处在于,它提供了一种图像生成的新范式……将复杂提示分解为多个步骤,并在不同阶段逐一进行编辑。
  • 未来的发展方向是让模型不仅能生成高质量图像,更能深入理解用户意图……甚至超越指令本身,提供更具创造性的结果,同时确保内容的真实性与准确性。

在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成为了新一代Gemini图像模型的首位“体验者”。

产品经理Nicole上传了他的照片,随后向模型发出了一个看似随意的指令:

“拉远镜头,给他穿上一套巨型香蕉服装,脸部需清晰可见。”

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第27张

几秒钟后,结果呈现在屏幕上。

照片中的Logan保留了本人特征,但身上完美融合了一件亮黄色的香蕉道具服,背景切换为芝加哥街景。

“太有趣了,”Logan惊叹道,“这张照片确实摄于芝加哥,街道景象与现实高度吻合。”

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第28张

“纳米香蕉”名称的由来

接着,Nicole输入了一个更神秘的指令:“将它转化为nano风格。”

“这是什么意思?”Logan疑惑道。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第29张

屏幕上出现了一个身穿香蕉服的Q版Logan,形象可爱又精致。

谜底揭开:原来,“nano banana”(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的内部代号。

模型竟然能理解这个“内部梗”,并以极具创意的方式执行了指令。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第30张

这种“智能”背后,是新模型的核心技术——原生与交错式生成(Native and Interleaved Generation)

传统图像模型每次编辑都像是“遗忘”后的重新创作;而Gemini则像一位“有记忆”的画家。

也就是说,当Gemini进行多轮创作时,所有信息都保存在模型上下文中——它记得之前的笔触,也理解对话的完整脉络。

为证明这一点,团队展示了另一个精彩案例:“将主体转化为五种不同的1980年代美式商场风格。”

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第31张

模型仅在13秒内就生成了五张风格迥异但主角高度一致的图片,甚至还为每张图添加了“街机之王”、“酷盖”、“商城达人”、“淡定哥”等充满时代感的标题。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第32张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第33张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第34张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第35张

而且,这不仅适用于角色构建,你也可以拍摄自己房间的照片,让它帮你设计五种不同的装修风格。

在谷歌内部,已有许多员工用它来重新规划花园与室内布局了!

在推特“差评榜”中锤炼成长

有趣的是,如此强大的模型竟是在网友的各类吐槽中不断完善的。

研究工程师Robert坦诚回忆:“(2.0版本发布后)我们确实长时间停留在X(推特)平台,逐条阅读用户的反馈与批评。

例如“编辑后图像风格不一致”、“修改了不该变动区域”等问题都被收集起来,并构建了一个专门的内部评估基准——一个名副其实的“推特差评榜”。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第36张

在训练过程中,有一个问题曾让研究员Kaushik近乎“痴迷”——文字渲染

“我们曾长时间忽略这个问题,”Robert调侃道,“觉得他有点执着过头,对文字渲染太过专注。”

但Kaushik的坚持最终被证明是正确的。

具体而言,当模型能够精准渲染文字的笔画结构时,其对图像宏观与微观结构的理解力也会同步提升。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第37张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第38张

这个曾被忽视的细节,最终成为了模型能力进化的重要标志。

Gemini与Imagen的协同创新

那么,新模型是如何在“智能”(指令遵循)与“美观”(图像质量)之间实现完美平衡的呢?

答案在于一次关键的内部协作:Gemini团队与Imagen团队的深度联合

你可以将Gemini团队视为模型的“大脑”,他们赋予模型世界知识、强大的逻辑推理与指令遵循能力。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第39张

而Imagen团队,则像是模型的“艺术总监”,他们拥有“经过千锤百炼的、极其敏锐的审美眼光”。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第40张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第41张

对此,Kaushik分享了一个颇具戏剧性的场景:“过去我们认为编辑成功只需完成指令即可。但Imagen团队的同事看到后,会直言不讳地批评:这太糟了。你怎么会想让模型产出这样的东西?!

的确,团队中真有对美学极其敏感的成员,他们会仔细审查成百上千张图片,仅凭肉眼就能分辨模型间的细微差异。

大家甚至笑称,未来目标是依据他们的品味训练一个“自动审美评分器”。

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第42张

超越想象的智能创意伙伴

最后,当谈及未来时,团队的想象力被充分激发。

Nicole的愿景,或许道出了每位产品经理的心声:“我希望有一天,这个模型能直接为我制作一套视觉效果出色的工作幻灯片。它不仅外观精美,所有图表与数据都必须真实准确(Factuality)。”

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第43张

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第44张

而研究员Mostafa的展望则更具哲学思辨性,也更令人振奋。他期待的不仅是高质量图像,更是一种全新的智能形态——“Smartness”

“我期待这样一种场景:我让模型执行某项任务,它并未完全遵循我的指令。但看到结果后,我反而会感叹:我很高兴它没有盲从,这结果比我描述的更出色!

谷歌nano banana图像模型:AI创意生成的全新革命 AI图像生成 谷歌Gemini 多模态模型 创意应用 第45张

在Mostafa看来,这并非模型的“失误”或“巧合”,而是一种更高层次智能的涌现。

当AI的知识与视角超越用户时,它不再是被动工具,而是能主动提供更优解决方案的、比用户更“聪明”的创意伙伴。

参考资料: 

https://x.com/6xyzzxy1/status/1960736252661260294 

https://x.com/Error_HTTP_404/status/1960405116701303294 

https://x.com/tokumin/status/1960583251460022626 

https://x.com/op7418/status/1960362278357987649 

https://x.com/skirano/status/1960343968320737397 

https://x.com/yachimat_manga/status/1960555945131696329 

https://x.com/alex_prompter/status/1960773176264118429 

https://x.com/bilawalsidhu/status/1960529167742853378