字节的图像生成模型发布不久,阿里也迅速推出了新模型!
智东西在2月10日报道,阿里巴巴发布了新一代图像生成基础模型Qwen-Image 2.0,该模型支持长达一千个token的超长指令、达到2k分辨率,并采用更轻量的模型架构,模型尺寸远小于Qwen-Image 1.0的20B,从而提升了推理速度。
智东西对阿里Qwen-Image 2.0、字节Seedream 5.0 Preview以及谷歌Nano Banana Pro进行了对比,发现Qwen-Image 2.0在长指令遵循和长文本渲染上表现优秀,但在图像生成的真实感上略逊于Nano Banana Pro。
Qwen-Image 2.0的升级重点在于文字渲染。在下方的AB测试中,文字的字体、排版、格式等由一则包含888个token(近1000个中英文字词)的超长提示词定义,而Qwen-Image 2.0能很好地还原。
Qwen-Image 2.0还能用毛笔字渲染《兰亭集序》全文,并确保文字和画面的协调,文字不遮挡山水景色和人物。细看文字部分,虽然有些渲染失败的文字,但占比已很低。
Qwen-Image 2.0还支持一次性渲染多个子图并保持主体一致性。如下图所示,Qwen-Image 2.0一次性生成了包含24个画面的漫画,人物和画风连贯。
针对AI生图的常见“油腻感”问题,Qwen-Image 2.0也做了优化。与前一代模型相比,Qwen-Image 2.0的色彩不会过于饱和,观感更接近实拍。
阿里在AI盲测平台AI Arena上对Qwen-Image 2.0进行了测试,结果显示该模型在文生图和图生图基准中分别排名第三和第二,但与谷歌的Nano Banana Pro(图中为Gemini-3-Pro-Image-Preview)仍有一定差距。此外,该模型还未与刚发布的Seedream 5.0 Preview进行对比。
千问视觉生成负责人吴晨飞表示,Qwen-Image项目于2025年5月立项,去年8月发布首款模型,此后主要围绕生图和编辑两个方向迭代。而Qwen-Image 2.0则将这两个能力整合到一个模型中。
目前,Qwen-Image 2. 已在阿里云百炼上开通API邀测,用户也可通过Qwen Chat(chat.qwen.ai)免费体验新模型。千问App产品经理刘巍透露,该模型后续将在千问App里上线。
会后,我们还与吴晨飞和千问大模型高级解决方案架构师熊瀚天进行了交流。
当问及Qwen-Image系列模型的未来规划时,吴晨飞称,如果用一词概括Qwen-Image 2. 升级的核心,那就是“信息图”。未来一年,Qwen-Image团队将继续研究如PPT、多图海报、漫画等复杂“父图”的生成,并减少幻觉和错误。
此外,该团队还计划在前发布的分层模型基础上,进一步强化模型的分层编辑能力。目标是让生成模型成为生产力工具。通过AI分图层,设计师可灵活结合AI生成(如千问编辑特定层)与传统手段或融合不同模型的专长实现“分而治之”的复杂编辑流程。
本文由主机测评网于2026-07-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748650.html