今年上半年,GPT-4o掀起的热潮,不仅让奥特曼体会到GPU的炙热,更使得图像生成与视觉理解迅速成为各大模型的标配功能。
然而进入下半年,真正吸引眼球的却是那根「香蕉」——Nano Banana。
为重新夺回领先地位,OpenAI今日正式发布全新图像视觉模型GPT-Image-1.5。这是继GPT-5.2之后,OpenAI“红色警报”计划中的又一重大举措。
快速了解核心升级点:
指令遵循更精准
编辑操控更精确
细节保留更完整
生成速度提升4倍
GPT-Image-1.5的核心升级在于「精准编辑」能力。
以往使用AI修图,就像遇到一位难以沟通的理发师,你只想修剪刘海,他却直接给你剃成光头。如今,模型终于能准确理解指令,指哪改哪。
光线、构图、人物特征,在输入、输出及后续编辑的全过程中均能保持高度一致。
听起来很抽象?不妨看看官方展示的案例。
将两名男性和一只狗融入一张2000年代胶片风格的儿童生日派对照片 →
在背景中添加嬉戏打闹的孩子们 →
将左侧男子改为复古手绘风格,狗变成毛绒玩具风格,右侧男子与背景保持不变 →
为所有人换上OpenAI主题毛衣 →
最终只保留狗,并将场景切换至OpenAI的直播现场……
这一系列操作下来,画面逻辑竟然未出现混乱。这表明GPT-Image-1.5并非依靠随机生成,而是真正理解了画面结构,能够精准执行增删改查。能够改得准、稳得住,正是当前的技术壁垒。
接下来,再看几个我们实际测试的案例。
你可能欣赏过《千里江山图》这幅传世名作,但或许忽略了其中的亿点点细节。
同理,谁说《百骏图》中不能突然出现一只从现代穿越而来的网红柴犬Kabosu?
即便是马斯克与扎克伯格那场未能上演的笼中决斗,在GPT-Image-1.5的加持下,一次就成功将主角替换为奥特曼,面部未变形,违和感极低。
我们要求生成一张细节丰富、逼真写实的极端仰拍照片,画面中马斯克坐在珠江岸边,单手搭在广州塔尖,为体现巨物感,脚边还散布着微小的游船和游客。
结果,模型确实理解了什么是「比例感」。
提示词:一张细节丰富、逼真写实的极端仰拍照片,马斯克坐在珠江岸边,单手搭在广州塔尖,为体现巨大体型比例,脚边添加微小的游船和游客,2K分辨率,16:9画幅。
与初版图像模型相比,GPT-Image-1.5更能精准遵循复杂细致的指令,保持各元素间的预设关系。
官方展示了一个6x6网格图案例,每行需按指定内容排列,包括希腊字母、动物、物品、图标、单词等,模型排列得井然有序,让强迫症患者也感到舒适。
实测表明,将线稿转为真实图片已成为基础操作。
文本渲染能力亦有提升,能更好处理密集小字体内容。例如,将一段Markdown格式内容呈现为自然的报纸文章布局,包含GPT-5.2发布说明、性能基准对比等,格式与数字均保持完整准确。
这一能力看似不起眼,但对于需要生成海报、宣传图、信息图表的用户而言,却是刚需。
在Nano Banana Pro问世前,生成式AI的文本渲染一直抽象得离谱,如今终于可看。不过仍需泼盆冷水:GPT-Image-1.5的英文能力确实出色,但中文表现仍是灾难现场。
让它绘制一张「擎天柱征服火星」的中文漫画,结果它自创了一门火星文。
又比如,让它生成一张古人在墙壁上书写《水调歌头》的图片,不仅文字错误百出,握笔姿势竟是拿钢笔的手法。
好在生成速度提升了4倍,这边还在绘制,那边可以同时开启多个新任务,试错成本大幅降低。物体知识储备也尚可,询问往水中加盐鸡蛋会怎样,生成的图片倒是有模有样。
左侧为原图,右侧为生成图片。提示词:若往水中加入大量盐,生成图片展示鸡蛋的变化。
博主@Yuchenj_UW认为,GPT-Image-1.5的生成效果大致达到Nano Banana Pro的「专业级」水准,但「智商/推理能力」明显落后于Nano Banana Pro,尤其在数学题及其他物理/迷宫类问题上表现更差。
OpenAI此次还在ChatGPT中专门开辟了图像创作入口。
网页与移动端侧边栏均可看到这一新入口,内置丰富的预设滤镜和热门提示词,并定期更新。上传一次肖像,后续生成均能保持你的特征,无需反复提供图片。
坦白说,这一功能Nano Banana并不具备,但国内的生图模型早已普及。某种程度上,GPT-Image-1.5也是在借鉴国内同行的经验。
不久前,奥特曼也在社交媒体上分享了自己用GPT-Image-1.5生成的圣诞性感月历男模照片。
既然来了,我们也顺手为奥特曼换了几套造型,贴纸风、摇头娃娃风、素描风,预计今天过后,奥特曼又要成为互联网上最忙碌的男人。
有个细节值得点赞:当你要求生成预设方案时,OpenAI会公开预设的提示词。从这一点看,OpenAI确实open了。
此外,制作贺卡、创建专辑封面、修复老照片、拍摄专业求职照片等也都是非常实用的预设方案。例如,那张经典的鲁迅与泰戈尔合照,经修复后效果相当不错。
OpenAI应用CEO Fidji Simo在博客中写道:「人类的思维并非仅由文字构成。事实上,我们最具创意的想法,往往源于脑海中的图像、声音、动作或模式。」
她透露,ChatGPT正从反应式、以文本为核心的产品,转变为一个更直观、更能贴合各类任务需求的工具。从纯文字向多媒体与动态界面转变,是这一进化过程中的关键一步。
许多用户首次接触ChatGPT,是通过文字生成图片。但ChatGPT的聊天界面最初并非为此设计。图像创作与编辑是截然不同的任务,需要专门的视觉空间支持。因此,OpenAI索性为其开设专属入口,让图像生成拥有更像创意工作室的环境。
OpenAI的计划不止于此。未来还将引入更多视觉元素,优化ChatGPT的整体体验。例如,在进行搜索查询时,结果将更丰富地包含图片与清晰来源。在单位换算或查阅体育比分等任务中,你需要的是一目了然的可视化结果,而非文字描述。
甚至写作体验也在改进,未来内置的写作模块让你在聊天中直接编辑,并能一键导出PDF或直接调用邮件应用发送。ChatGPT早已不是单纯的语言模型,它正在演变为真正的多模态工作台。
当然,除普通用户外,开发者也能通过API使用GPT-Image-1.5。
与GPT-Image-1相比,GPT-Image-1.5具备更强的品牌元素与关键视觉保持能力,适用于电商、品牌营销等需要生成大量变体图片的场景。图像输入输出费用降低20%,相同预算可生成更多图像。
降价+提效,这套组合拳打得相当实在。
此外,迪士尼上周宣布向OpenAI投资10亿美元,并达成合作协议。
根据这项为期三年的授权协议,OpenAI旗下的Sora与图像生成模型均可生成迪士尼、漫威、皮克斯和星球大战旗下角色,并计划明年初正式上线相关功能。
内容IP加AI生成,背后想象空间巨大。
更重要的是,GPT-Image-1.5的发布,标志着图像生成工具正从「玩具」向「工具」转变。
目前市面上大多数AI改图工具,一改就崩,毫无一致性可言。
GPT-Image-1.5至少在这个方向上迈出了坚实一步。它开始具备后期编辑能力,能像Nano Banana Pro一样控制细节,确保画面连贯。
此外,在模型能力相对较弱的情况下,GPT-Image-1.5通过更完善的图片生成预设方案及功能设置,完成对新版Nano Banana的反击,确实是不错的选择。
专属图像创作入口、预设滤镜库等,这些看似不起眼的产品设计,恰恰击中了普通用户的痛点。许多人并不需要最强的模型,他们需要的是能快速上手、无需反复调教、生成结果八九不离十的工具。
模型能力领先只是第一步,如何将能力转化为好用、易用、爱用的工具,才是真正的护城河。
本文由主机测评网于2026-03-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329095.html