当前位置:首页 > 科技资讯 > 正文

Google DeepMind推出全新Gemini 2.5:图像生成革命

引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。

从香蕉到礼服,Google再度突破!

在最新一期的谷歌开发者节目中,Google DeepMind团队首次全面展示了Gemini 2.5 Flash Image——一款拥有原生图像生成与编辑能力的最新模型。

它不仅能迅速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称SOTA级图像生成革命。

背后的研发和产品团队也首次亮相。

揭秘背后团队

Logan Kilpatrick

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第1张

Logan Kilpatrick是Google DeepMind的高级产品经理,负责领导Google AI Studio和Gemini API的产品开发工作。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第2张

他在AI开发者社区中享有盛誉,曾在OpenAI担任开发者关系负责人,广为人知的昵称是「LoganGPT」。在加入Google之前,他曾在Apple担任机器学习工程师,并在NASA担任开源政策顾问。

在Google,Kilpatrick领导了Gemini 2.0 Flash的本地图像生成功能的推出,使开发者能够通过自然语言提示生成和编辑图像。这一功能的亮点包括多轮对话式图像编辑、图像和文本的交替生成,以及基于世界知识的图像生成。

Kilpatrick还定期在X上分享产品更新和开发者资源,成为Google AI的非正式代言人。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第3张

Kaushik Shivakumar

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第4张

Kaushik Shivakumar是Google DeepMind的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第5张

他在加利福尼亚大学伯克利分校获得了计算机科学学士学位,并在该校的AUTOLab实验室攻读硕士学位,师从Ken Goldberg教授。在研究生阶段,他主要从事与可变形物体操作、语言模型和强化学习相关的机器人研究。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第6张

在加入DeepMind之前,Kaushik曾在Google Brain团队担任软件工程实习生,研究深度神经网络的不确定性估计方法。他还在UC Berkeley的RISE Lab和Snorkel AI等机构担任研究员和实习生,参与了多项与机器人、机器学习和弱监督学习相关的项目。

Robert Riachi

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第7张

Robert Riachi是Google DeepMind的研究工程师,专注于多模态AI模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第8张

他在大学期间主修计算机科学和统计学,毕业于加拿大滑铁卢大学。

Google DeepMind推出全新Gemini 2.5:图像生成革命 Gemini 2.5 图像生成 多模态AI 创意解读 第9张

在DeepMind,Riachi参与了多个重要项目,包括Gemini 2.x系列模型的研发工作,致力于将图像生成能力与对话式AI相结合,使用户能够通过自然语言提示进行精细的图像编辑。

Nano Banana有哪些技术亮点?