智东西8月27日报道,今日,谷歌隆重推出了Gemini 2.5 Flash Image,此模型堪称谷歌在图像生成与编辑领域的巅峰之作。
该模型的核心亮点,无疑是其强大的图像编辑能力。谷歌声称,此模型能够将多个图像无缝融合至单一图像中,确保角色与场景的极高一致性,并能通过自然语言进行精准修改,同时充分利用Gemini的全球知识库。
这一特性解锁了众多有趣的应用场景,例如,根据特定视觉模板打造“球星卡”级别的设计,让每个人都能轻松体验顶级运动员的专属待遇。
此模型与谷歌Veo 3等视频生成模型相得益彰,结合使用可创造丰富的视频效果。海外AI创意平台Kera AI已用类似模式制作了一部广告大片。
诺贝尔奖得主、谷歌DeepMind联合创始人兼CEO Demis Hassabis特地发推,利用自己的照片为新模型宣传,展示了Gemini 2.5 Flash Image的角色一致性。他将照片背景改为古典风格,而人物面貌保持不变。
这款模型在上周以“nano-banana(小香蕉)”的代号出现在大模型竞技场中,并赢得了用户超过200万票的认可。正式揭晓后,Gemini 2.5 Flash Image在文生图与图像编辑领域均荣获全球第一,在图像编辑榜单上更是取得1362的高分,领先第二名的幅度接近15%。
在谷歌公布的基准测试中,Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上均领先GPT-4o图像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型,但在风格化能力上与GPT-4o图像生成仍有差距。
Gemini 2.5 Flash Image主要面向开发者,目前可在Gemini API、Google AI Studio以及面向企业的Vertex AI中访问。
Gemini API地址:https://ai.google.dev/gemini-api/docs/image-generation
该模型的价格为30美元/100万个输出token,每张图像包含1290个输出token,每张图像的价格约为**美元(折合人民币**元)。所有其他输入和输出模态均遵循Gemini 2.5 Flash的定价。
为了让开发者更轻松地运用Gemini 2.5 Flash Image构建AI应用,谷歌对AI Studio的“构建模式(Built Mode)”进行了重大更新。开发者可以利用AI打造应用程序,快速测试新模型的功能。
准备发布应用时,开发者可直接从谷歌AI Studio进行部署,或保存代码至GitHub。谷歌还在博客中分享了多个案例:
保持多轮对话和编辑中的角色与对象外观一致性,是图像生成与编辑的重大挑战。谷歌的Gemini 2.5 Flash Image允许用户将同一角色置于不同环境中,从不同角度展示单个产品,或生成一致的品牌资产,同时保留主题。
在示例应用中,用户只需上传一张自拍,即可生成从50年代到千禧年的六张写真,每一张都带有当时的时代特色,而用户的面貌始终保持不变。
智东西也上传了OpenAI联合创始人兼首席执行官Sam Altman的照片。谷歌的新模型让Altman一键穿越回过去,画面质感超真实,每个年代的服饰、发型都精准还原。
...
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440221.html