数周前,一个以神秘“香蕉”为代号的模型在评测平台LMArena上悄然亮相,没有官方公告或文档,却凭借惊人的图像质量和角色一致性,轻松超越众多老牌模型,在AI社区内引发广泛热议。
当时,人们纷纷猜测其来源:或许是OpenAI的秘密项目,或是独立团队的突破性成果。直到8月底,Google正式揭晓谜底:Nano Banana正是其最新发布的文生图模型——Gemini 2.5 Flash Image。
作为Gemini 2.0 Flash的升级版,Nano Banana更像一个智能AI编辑器,贴近真实工作流。它能在多次编辑中维持角色和画面的高度一致,用户仅需自然语言即可完成精细局部调整和多图合成。
与以往模型单纯“生成一张好图”的目标不同,Nano Banana扮演着随时待命的设计助手角色,协助用户迭代、优化和创造。
众多测试者体验后表示,这可能标志着Photoshop时代的终结。
在竞争激烈的文生图赛道,Nano Banana为何能再次掀起浪潮?相比OpenAI、Flux等强劲对手,它有何独特之处?效果究竟如何?Google的多模态能力又发展到何种水平?
在Google正式认领前,Nano Banana匿名亮相于全球热门的大模型测评平台LMArena。该平台以社区投票为核心,进行模型匿名对战,用户盲选偏好结果,再通过算法排名。8月中旬,一个代号Nano Banana的陌生模型出现在文生图和图片编辑榜单上,凭借稳定惊艳的输出迅速登顶,引发广泛关注与猜测。
随着讨论白热化,8月25日前后,Google工程高管如DeepMind CEO Demis Hassabis等在社交平台发布香蕉元素帖子暗示归属。在Gemini 2.5 Flash Image官宣前,Google CEO Pichai更是连发三根香蕉“宣誓主权”。
上一次文生图模型如此轰动,还是GPT-4o的吉卜力热潮。Nano Banana的亮点何在?开发者们指出,其最大突破在于“一致性”能力。
张宋扬
亚马逊AGI部门Applied Scientist:
最惊艳的是它在角色一致性上效果极佳,相比之前模型,这可能是目前做得最好的。
Nathan Wang
硅谷101特邀研究员
Agent资深开发者:
Nano Banana的一次生成成功、保持一致性及可编辑性令我震撼。
过去,模型在多轮编辑中常出现“换衣变脸”问题,微小的偏差使其难以成为可靠工具。Nano Banana的改进在于能在多轮编辑中锁定人物或物体核心特征,无论是调整姿势、更换服装,还是将宠物置于新背景,主体始终保持不变。
第二个突破是多图融合。以往合成不同照片时,常出现不协调、空间扭曲等问题,人物像被“贴上去”。Nano Banana能自动处理风格和逻辑一致性,让画面浑然一体。
第三个亮点是自然语言驱动的精准修改。以往需手动画蒙版或使用专业工具,现在仅需简单描述如“换背景”、“移除人物”等,Nano Banana便能精准执行,保持其他部分不变,将编辑门槛降至零。甚至可用简笔画交流。
此外,它还支持多轮对话式编辑和风格混配。用户可逐步要求调整,模型会记住上下文,避免推翻之前成果。甚至可将花瓣纹理应用于鞋子,蝴蝶图案变成裙子,创造全新风格。
Google还为生成图片添加了可见水印和不可见数字水印SynthID,以确保安全性和可追溯性。
DeepMind团队首次分享研发故事,称Nano Banana核心突破在于“交替生成”新范式。它将复杂指令拆分为多步骤,每步做小调整,如先换衣再改背景,从而携带“记忆”保持一致性。
研发人员透露,Nano Banana在创意场景表现自然,得益于充分利用Gemini的世界知识。Gemini团队与Imagen团队合作,前者提供语言理解和世界知识,后者贡献高质量图像生成和风格控制经验,使模型在“理解—创造—理解”循环中表现全面。
DeepMind研究员表示,希望Nano Banana不仅是生成工具,更是陪伴用户思考创作的智能体。
根据LMArena匿名测评和Google数据,Gemini 2.5 Flash Image全面超越ChatGPT 4o、FLUX Kontext等竞争对手,且生成成本极低,单张图像仅需0.039美元。
目前,普通用户可通过Google Gemini应用、Google AI Studio直接调用Nano Banana,也可使用Gemini API和Vertex AI平台。Adobe、Lovart等平台已宣布集成。
用户可免费使用,生成速度极快,几秒内即可出图或修改,引发网友广泛尝试。
首先,人物一致性效果令人惊艳。普通游客照可轻松更换背景、服装,模拟球赛现场;影棚侧面照变正脸证件照,调整发型造型,轻松完成。品牌方无需昂贵棚拍,打字即可零成本出片。
卡通人物可生成多样表情动作;宠物可轻松更换毛色或品种。实测中,萨摩耶可变为藏獒或哈士奇。
测试将后院抱宝宝照片瞬移至马尔代夫、巴黎、北京故宫,效果自然。
将宝宝变为猩猩宝宝,主体保持不变,墨镜、表情、动作均保留原片细节。
增加难度:将表情从微笑变惊讶,姿态从看镜头转向看宝宝,人物一致性保持良好。侧头后墨镜反光呈现沙滩镜像,逻辑和细节出色。
亚马逊AGI部门Applied Scientist张宋扬猜测,一致性控制能力提升可能源于数据精细处理,包括高质量数据筛选和比例调整。
多图融合功能亦出神入化。人物跨时空会面照片以假乱真,光线对焦毫无违和感;食材可合成逼真菜肴。
测试让马斯克和Altman合影,效果自然。
添加香蕉服装,效果可爱。
尝试加入Pichai和扎克伯格,但人物识别出现偏差,调整后仍有错误,显示模型存在bug。
提供Pichai照片后模型仍未能纠正,显示识别局限。
但一般合影需求效果丝滑。多图融合已显现专业化替代潜力,如网友输入模特、产品、布景等十几张图片,融合设计效果惊艳,媲美广告公司。
服装品牌可省去模特拍摄,上传平面衣服照片即可让Tylor Swift换装。
可调整姿势、光影,生成多角度上身效果。
拥有“世界知识”的Nano Banana对抽象指令理解能力大幅跃升。简笔画能结合人物图片进行姿势改变与创意设计;奥特曼表演鞍马轻松实现。
平面地图画线可展示实际风景视角。
多轮对话式编辑和风格混配能力亦属实,如用于室内设计、绘图渲染,或用花朵纹理设计新衣。
Nathan Wang指出,Nano Banana在图片编辑上达到了类似文字编辑的细粒度优化,是多模态模型的重大突破。
网友们还挖掘出各种玩法,如制作“手办模型”,效果可爱。
结合其他平台创作视频,如让梵高、蒙娜丽莎变成真人在公园聊天;或用Nano Banana与Seedance制作动画短片;与Weavy制作3D产品介绍。
与其他模型对比测试显示,Nano Banana在生成速度、效果和稳定性上优势明显。GPT-5改变背景时人物变样。
FLUX抠图但头发缺失,人像贴图感强。
GPT融合合影指令理解困难,生成照片不可用。
GPT创建手办出现比例、五官等瑕疵。
但Nano Banana也有局限:中文能力未突破,文字乱码;编辑指令理解偏差,如为手办加腿时错加至盒子,背景丢失。
多轮对话中复杂指令易混乱,如多图融合生成马斯克、扎克伯格、皮柴围观猩猩宝宝时,人物比例表情不协调,主体变化。
网友还指出分辨率不高、提示词审查严格、艺术性不及Midjourney等问题。但总体评价积极,被视为文生图里程碑。
Nano Banana并非孤立事件,而是谷歌多模态产品密集推进的缩影。过去一年多,谷歌以“密集轰炸”节奏推出多模态产品,形成完整矩阵,大致分为五条主线。
第一条主线:文生图Imagen系列。始于2022年5月,结合大语言模型理解提示和扩散模型生成图像。2024年I/O大会推出Imagen 3产品化,2025年5月发布Imagen 4,强化光影细节,逼近真实摄影。
第二条主线:文生视频Veo系列。2024年1月发布Lumiere,用时序扩散生成连贯视频。2024年5月Veo 1支持1080p高清,12月Veo 2升级至4K并接入Vertex AI。2025年5月Veo 3可同步生成音乐旁白,进入影视级创作。
第三条主线:Genie系列,即“交互世界生成”。不同于视频生成,它创造可玩虚拟世界。Genie 1于2024年初亮相,从图像生成2D游戏环境;Genie 2在2024年底发布,生成复杂3D互动世界;Genie 3于2025年8月5日推出,从文本或图像生成动态3D世界,支持实时交互,成为真正“世界模型”。
Genie预示多模态探索触及“沉浸式体验”和“虚拟世界构建”边界。
第四条主线:面向创作者的工具集。2024年5月推出ImageFX和VideoFX,让用户在Labs体验文生图与视频;2025年5月发布Flow,整合Veo和Imagen能力到影视叙事工作流。
第五条主线:Gemini多模态底座。作为通用多模态基础模型,是系统的“大脑”,理解、推理和处理文本、图像、音频、视频等信息。2023年底Gemini 1.0发布;2024年2月Gemini 1.5带来长上下文窗口突破;2025年2月Gemini 2.0系列推出Flash和Flash-Lite应对低延迟场景;2025年8月Gemini 2.5 Flash Image(Nano Banana)将AI修图变为大众体验。
总结而言,谷歌多模态战略清晰:文生图Imagen、文生视频Veo、交互世界Genie,通过Flow、ImageFX、VideoFX嵌入创作工作流,背后由快速迭代的Gemini底座支撑。
Nathan Wang指出,谷歌的人才、基建和数据底座是其优势,产品线基于客户人群和应用场景开发,思路清晰。
张宋扬表示,大公司倾向打造端到端生成模型,融合多种模态,符合智能认知。不同团队先突破单任务再发布产品,未来或融合为简洁界面。
未来,谷歌可能将更多模型能力融合至Gemini,打造多模态超级流量入口;而Imagen、Veo等向纵深发展,服务专业开发。
图源:ai.google
从Nano Banana到多模态矩阵,谷歌过去一年多加速爆发,在生成式AI竞赛中补齐所有环节。这种“连环拳”式发布,信号显示谷歌正以完整矩阵重新定义生成式AI边界。但能否转化为市场优势?Nano Banana的领先能持续多久?欢迎评论区分享看法。
本文由主机测评网于2025-12-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213913.html