近日,备受瞩目的图像生成与编辑模型nano banana终于揭开了神秘面纱。不出所料,它由谷歌推出,并获得了官方命名:gemini-2.5-flash-image-preview。
据官方介绍,这一模型拥有“领先的图像生成与编辑能力、出色的角色一致性以及极快的处理速度”。
从名称推断,谷歌很可能还开发了非flash版本的gemini-2.5-image模型,预计性能更强但速度稍慢。
目前,gemini-2.5-flash-image-preview已在Google AI Studio和Gemini API中开放预览,供用户免费体验。
该模型支持32k上下文长度,并提供温度调节(用于控制创意程度)等高级设置选项。
然而,目前该模型尚不支持中文输入进行图像生成和编辑,仅能回复文本内容。
此外,在Gemini平台中,用户只需选择2.5 Flash模型并输入合适提示词,即可调用该功能。
价格方面,gemini-2.5-flash-image-preview的文本输入/输出费用为0.3/2.5美元,图像输入/输出费用为0.3/30美元,知识截止日期为2025年6月。
粗略估算,该模型生成单张图像的成本约为0.039美元(约0.28元人民币),显著低于OpenAI的图像生成服务定价。
在功能层面,谷歌特别强调该模型在跨图像中维持人物形象一致性的能力。
“我们深知,当编辑自己或熟悉的人物时,细微差异都会显得突兀——‘相似但不完全一致’的效果总让人感到不适。因此,本次更新专注于确保你的朋友、家人甚至宠物在任何新场景下,无论是尝试复古发型还是趣味装扮,都能保持原本样貌。”
用户只需上传一张照片并指定修改要求,即可添加个性化风格。该模型能将用户与宠物合成到同一画面、更换房间背景,或虚拟旅行至任何地点,同时确保“本人特征不变”。编辑后的照片还可再次上传,转化为趣味短视频。
谷歌分享了以下应用示例:
更换服饰或背景:上传人物或宠物照片,模型可在新场景中保持外貌一致。用户可尝试不同服装、职业甚至历史年代造型,但始终保留核心特征。
谷歌还专门开发了一个演示应用,展示用户在不同年代的形象变化。
地址:https://aistudio.google.com/apps/bundled/past_forward
图像合成:支持上传多张照片融合为新场景。例如,将用户与狗狗的照片合成在篮球场上,生成完美合影。
多轮编辑:支持对生成图像进行连续修改。例如,从空房间开始,逐步添加墙壁颜色、书架、家具等,模型仅调整指定部分,保留其他内容。
风格混合:将一张图像的风格应用到另一图像的物体上。例如,将花瓣质感应用于雨靴,或用蝴蝶翅膀图案设计连衣裙。
内置世界知识:模型集成Gemini的世界知识,拓展了应用场景。谷歌在AI Studio中构建了一个模板应用,可将简单绘画转化为交互式教育工具。
地址:https://aistudio.google.com/apps/bundled/codrawing
此外,所有在Gemini中生成或编辑的图像都会添加可见水印及谷歌隐形SynthID数字水印,以明确标识为AI生成内容。
模型上线后迅速引发测试热潮,谷歌首席科学家Jeff Dean亲自参与,将自己编辑为足球运动员卡牌形象。
诺奖得主、DeepMind创始人兼CEO Demis Hassabis也生成了一张个人形象照。
网友纷纷分享创意成果:
gemini-2.5-flash-image-preview上线后,各大榜单陆续公布其表现。
在Artificial Analysis的图像编辑排行榜中,该模型以1212 ELO分数位居榜首。
在文生图榜单上,字节跳动的即梦3.0和OpenAI的GPT-4o仍保持微弱优势。
但在投票数更高的LM Arena榜单中,gemini-2.5-flash-image-preview已在两项任务中均位列第一。
详细指标显示,该模型在角色一致性、创意、图表绘制、物体与环境呈现等方面优势突出,而GPT-4o在风格化方面暂时领先。
你是否已经体验过nano banana或gemini-2.5-flash-image-preview?感受如何?
https://x.com/googleaistudio/status/1960344388560904213
https://blog.google/products/gemini/updated-image-editing-model/
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251212820.html