【导读】谷歌最新推出的图像模型nano banana引发了全球关注,它不仅能够智能融合多张图片以构建全新视觉画面,还能深度理解地理环境、建筑构造与物理结构,甚至将二维平面地图转化为生动三维景观。依托Gemini模型的世界知识储备与交错生成技术,nano banana实现了具备“记忆功能”的多轮次创作,在保证极高一致性的同时展现出非凡创造力。这一突破正在重新定义AI图像生成的边界,也让“AI创意伙伴”的未来充满了无限想象空间。
令人惊讶的是,AI领域仿佛一夜之间掀起了“纳米香蕉革命”的热潮。
谷歌可能未曾预料,其新发布的图像模型会迅速引爆全球科技社区!
近期,nano banana的火爆程度令人联想到数月前OpenAI“吉卜力风格”引发的创作盛况。
这张由nano banana生成的图片中,超人COSPLAY形象堪称惊艳
但此次谷歌nano banana带来了更具颠覆性的功能体验,不同于吉卜力风格的单一生成模式,其多样化玩法估计连谷歌团队都惊叹于网友们的极致创意。
例如,用户可以上传最多13张图片,然后指示nano banana将它们无缝整合。
你能想象上方合成图是由下方这些“视觉零件”组合而成的吗?
根据谷歌官方介绍,nano banana不仅仅是一个图像生成模型,更融入了Gemini强大的世界知识体系。
这使得nano banana的视觉理解能力跃升至全新维度(文末附有谷歌团队专访,揭秘模型背后的前沿技术路径)。
既然能够拼接物理世界的物体,那么“拼接”人物动作是否可行?
这完全达到了专业分镜水准!随后网友利用海螺AI工具制作了以下短片。
感觉利用AI拍摄电影已并非遥不可及!
由于nano banana继承了Gemini的世界知识,用户仅需上传现实场景截图,即可让它自动标注内容。
例如在画面中精准标注东京塔。
还能标注更多建筑细节。
甚至能模拟机器人视角,勾勒人物轮廓,瞬间带来终结者般的赛博朋克感!
最令人称奇的是,nano banana能够从“二维地图”中解读出“三维世界”。
网友们尤其热衷于用纳米香蕉演绎谷歌地图中“红色箭头所见景象”。
例如从西侧视角看到的金门大桥。
或从东侧视角看到的东京塔。
更神奇的是,纳米香蕉似乎真正理解了地理学中的等高线原理,能够直接从等高线图生成真实的地形地貌。
甚至连以往令人头疼的工程制图视角,都能轻松驾驭。
可以将任意图像渲染为上、下、左、右、前、后六个视图。
甚至可以利用nano banana为自己定制虚拟试衣,任何设计元素都能“穿戴”在身上。
不仅无需真实衣物,连人物动作也能直接复制。
X平台用户@ZHO_ZHO_ZHO通过人像结合动作框架,直接生成了摄影棚级别的拍摄效果。
逆向操作同样可行,可以从图像中提取现实建筑的物理结构。
此外,还能进行“逆向”图像处理:先将原图转为黑白线稿,然后选择心仪颜色,最终为图片重新上色。
nano banana在线稿转化与色彩填充方面表现出极高的精准度
当然,创意脑洞与趣味整蛊永远不会缺席。
例如让奥特曼身着运动服表演鞍马动作。
除了创造“新”图像,nano banana还能修复“老”照片。
它可以补充破损与折痕,还原被时光模糊的清晰画面。
由于纳米香蕉nano banana热度空前,甚至有网友呼吁为命名工程师加薪。
此前nano banana在LMArena平台上线后迅速风靡。
在最终盲测中,Gemini 2.5 Flash Image版本成绩遥遥领先。
谷歌这款nano banana明显区别于以往的图像模型,例如GPT-4o原生图像模型,其能力确实迈上了新台阶。
纳米香蕉背后是否采用了新技术与新体系?
恰逢其时,谷歌DeepMind团队近期接受了专访,揭开了模型背后的故事。
nano banana项目负责人与研究员接受了DeepMind产品负责人Logan Kilpatrick的播客采访,揭示了模型背后的技术密码:
在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成为了新一代Gemini图像模型的首位“体验者”。
产品经理Nicole上传了他的照片,随后向模型发出了一个看似随意的指令:
“拉远镜头,给他穿上一套巨型香蕉服装,脸部需清晰可见。”
几秒钟后,结果呈现在屏幕上。
照片中的Logan保留了本人特征,但身上完美融合了一件亮黄色的香蕉道具服,背景切换为芝加哥街景。
“太有趣了,”Logan惊叹道,“这张照片确实摄于芝加哥,街道景象与现实高度吻合。”
接着,Nicole输入了一个更神秘的指令:“将它转化为nano风格。”
“这是什么意思?”Logan疑惑道。
屏幕上出现了一个身穿香蕉服的Q版Logan,形象可爱又精致。
谜底揭开:原来,“nano banana”(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的内部代号。
模型竟然能理解这个“内部梗”,并以极具创意的方式执行了指令。
这种“智能”背后,是新模型的核心技术——原生与交错式生成(Native and Interleaved Generation)。
传统图像模型每次编辑都像是“遗忘”后的重新创作;而Gemini则像一位“有记忆”的画家。
也就是说,当Gemini进行多轮创作时,所有信息都保存在模型上下文中——它记得之前的笔触,也理解对话的完整脉络。
为证明这一点,团队展示了另一个精彩案例:“将主体转化为五种不同的1980年代美式商场风格。”
模型仅在13秒内就生成了五张风格迥异但主角高度一致的图片,甚至还为每张图添加了“街机之王”、“酷盖”、“商城达人”、“淡定哥”等充满时代感的标题。
而且,这不仅适用于角色构建,你也可以拍摄自己房间的照片,让它帮你设计五种不同的装修风格。
在谷歌内部,已有许多员工用它来重新规划花园与室内布局了!
有趣的是,如此强大的模型竟是在网友的各类吐槽中不断完善的。
研究工程师Robert坦诚回忆:“(2.0版本发布后)我们确实长时间停留在X(推特)平台,逐条阅读用户的反馈与批评。”
例如“编辑后图像风格不一致”、“修改了不该变动区域”等问题都被收集起来,并构建了一个专门的内部评估基准——一个名副其实的“推特差评榜”。
在训练过程中,有一个问题曾让研究员Kaushik近乎“痴迷”——文字渲染。
“我们曾长时间忽略这个问题,”Robert调侃道,“觉得他有点执着过头,对文字渲染太过专注。”
但Kaushik的坚持最终被证明是正确的。
具体而言,当模型能够精准渲染文字的笔画结构时,其对图像宏观与微观结构的理解力也会同步提升。
这个曾被忽视的细节,最终成为了模型能力进化的重要标志。
那么,新模型是如何在“智能”(指令遵循)与“美观”(图像质量)之间实现完美平衡的呢?
答案在于一次关键的内部协作:Gemini团队与Imagen团队的深度联合。
你可以将Gemini团队视为模型的“大脑”,他们赋予模型世界知识、强大的逻辑推理与指令遵循能力。
而Imagen团队,则像是模型的“艺术总监”,他们拥有“经过千锤百炼的、极其敏锐的审美眼光”。
对此,Kaushik分享了一个颇具戏剧性的场景:“过去我们认为编辑成功只需完成指令即可。但Imagen团队的同事看到后,会直言不讳地批评:这太糟了。你怎么会想让模型产出这样的东西?!”
的确,团队中真有对美学极其敏感的成员,他们会仔细审查成百上千张图片,仅凭肉眼就能分辨模型间的细微差异。
大家甚至笑称,未来目标是依据他们的品味训练一个“自动审美评分器”。
最后,当谈及未来时,团队的想象力被充分激发。
Nicole的愿景,或许道出了每位产品经理的心声:“我希望有一天,这个模型能直接为我制作一套视觉效果出色的工作幻灯片。它不仅外观精美,所有图表与数据都必须真实准确(Factuality)。”
而研究员Mostafa的展望则更具哲学思辨性,也更令人振奋。他期待的不仅是高质量图像,更是一种全新的智能形态——“Smartness”。
“我期待这样一种场景:我让模型执行某项任务,它并未完全遵循我的指令。但看到结果后,我反而会感叹:我很高兴它没有盲从,这结果比我描述的更出色!”
在Mostafa看来,这并非模型的“失误”或“巧合”,而是一种更高层次智能的涌现。
当AI的知识与视角超越用户时,它不再是被动工具,而是能主动提供更优解决方案的、比用户更“聪明”的创意伙伴。
参考资料:
https://x.com/6xyzzxy1/status/1960736252661260294
https://x.com/Error_HTTP_404/status/1960405116701303294
https://x.com/tokumin/status/1960583251460022626
https://x.com/op7418/status/1960362278357987649
https://x.com/skirano/status/1960343968320737397
https://x.com/yachimat_manga/status/1960555945131696329
https://x.com/alex_prompter/status/1960773176264118429
https://x.com/bilawalsidhu/status/1960529167742853378
本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213050.html