文|邓咏仪
编辑|苏建勋
阿里巴巴生态系统中的企业,正全力以赴拓展消费者市场。
11月19日,蚂蚁集团正式揭晓了全新应用“灵光”,首次推出了三大核心功能模块,包括“灵光对话”、“灵光闪应用”以及“灵光开眼”。
“灵光”被定位为“全代码生成多模态内容”的AI助手。简单来说,这款AI助手的回应不再局限于文本形式,每次对话都会交付一个可交互的网页,能够生成图文、3D模型、动画、地图、表格、音视频等丰富多样的全模态内容。
△来源:灵光
在“闪应用”模块中,用户仅需输入一句自然语言指令,灵光就能在30秒内生成一个可编辑、可交互的小型应用,支持多种信息输出方式。
“灵光开眼”则更侧重于视觉辅助功能,用户可以通过上传图片或实时拍照,让AI识别并理解图像内容,进而提供相关资讯或执行后续操作。
自11月18日上线以来,截至发稿时,“灵光”的下载量已突破100万,在App Store总榜中位列第6。这一增长速度已超越多款现象级AI应用。据移动应用分析机构Appfigures数据,近期广受热议的Sora2,达到百万下载量则用了5天时间。
另一个巧合在于,就在11月18日,阿里巴巴将其旗下的AI消费者应用进行了更新与整合,以“千问”App的形式重新推出;而蚂蚁集团的“灵光”则在次日迅速面世。
为何在短短一天内接连推出两款对话式AI助手?蚂蚁集团首席技术官何征宇表示,产品发布时间并未提前协商,纯属巧合。
一个大背景是,过去几年,阿里巴巴在消费者应用领域的投入相对有限。2025年,AI领域重回模型竞赛后,阿里巴巴在消费者应用上明显开始加速“补课”。“千问”上线时,阿里巴巴曾高调宣布全力打响AI消费者之战,展现出抢占新入口的强劲势头。
对阿里巴巴而言,鸡蛋也不能放在一个篮子里。“马老师也鼓励我们,让我们冲到App Store榜前列。”蚂蚁CTO何征宇表示。
当前模型能力仍处于快速演变中,充满不确定性,因此押注多个方向才是更为稳妥的策略,“我经常打一个比方,如果在沙漠中要找水,我一定不会把所有人都派到一个方向上,一定是好几路一起去找。”
两款产品在定位上也存在明显差异。
从定位上看,“千问”基于阿里巴巴旗舰模型Qwen构建,更像是展示模型实力的窗口,适用于处理通用知识问答、长文本写作和复杂逻辑推理任务。
相较之下,“灵光”更侧重于移动端交互的创新。“灵光”不仅能回答问题,还能通过生成代码来渲染多模态内容(如图表、界面等),直接交付一个信息容量丰富的网页;二是押注代码能力,让AI直接帮用户生成小程序。
何征宇补充道,灵光的目标并非成为通用助手入口,也不像豆包等应用主打陪伴功能,而是定位为效率工具。
与传统通用AI助手相比,灵光的最显著差异在于信息展现形式的革新。
这相当于在原有AI助手对话形态上迈进一步——AI的回答不再只有文字,而是能画图、做动画、生成3D模型、制作图表,就像一个边说边画的导师,让内容看得见、摸得着。
举例来说,当用户询问“怎么做糖醋排骨”时,传统AI助手可能给出一段冗长的文字食谱。但并非所有人都习惯这种长篇大论的交互方式,“灵光”则致力于以更多模态的形式来呈现信息。
《智能涌现》尝试以菜谱场景进行测试,例如搜索“怎么做糖醋排骨”。
第一体验极为流畅——灵光在数秒内就生成了一张色泽鲜亮的糖醋排骨长图,不仅提供详细步骤,还运用不同字体、小标题、图表甚至表情包进行图文并茂的排版,让用户更快理解。
△来源:智能涌现制图
灵光产品负责人蔡伟用一个类比解释:“这就像是从电子邮件时代进化到网页时代。以前写邮件只能用文字,现在打开网页,有图片、视频、交互按钮。我们希望AI的回答也能达到这种信息密度。”
这种“所见即所得”的交互方式,天然更符合人类认知世界的方式,可适用于更多场景——例如,在写论文时随口问个问题,AI直接生成一张图表;讨论装修时它画出3D户型图;聊到太阳系,一个行星运转的动画就出现在对话框中。
“我们每天都会接触海量信息,很多时候都淹没在信息的海洋里。”蔡伟表示,“但这些信息中哪些是关键的?以前我们去搜索引擎查找,它给出一堆链接,需要一个个点进去查看。我们更希望用更高效的方式,最大化信息传递效率。”
优化信息表达方式是第一步。灵光的另一个核心功能“闪应用”,能根据用户需求自动生成交互式“小应用”。
例如,用自然语言说“帮我做一个计时器”,30秒后,一个可直接使用的计时器应用就生成了。这些小应用能够直接使用、编辑、保存和分享,宛如真正的App。
△来源:智能涌现制图
这种技术路径的难点并非概念——目前所有顶尖模型厂商都会以此展示AI能力。但关键在于,AI生成的网页或App是否真正达到可用状态。
这种难度更多体现在模型架构和工程实现上。蚂蚁集团CTO何征宇在采访中透露了一个数据:相比纯文本输出,代码的膨胀率大约是5-6倍。
简单理解,对于一个15个字的指令“生成一个居中的蓝色‘提交’按钮”,模型需要生成一个可实际交互的组件,所需代码量很容易达到几十甚至上百个字符。
△来源:智能涌现制图
挑战在于,用简单指令让模型生成大量内容(高膨胀率)本身需要更多计算资源和时间——如何保证模型的高性能和稳定性?“灵光”团队进行了大量工程优化。
这不仅需要代码生成能力,还需推理能力足够精准(判断用何种形式呈现信息)、工具调用能力(动态生成地图、图表)、数学能力(处理数据可视化),以及对用户意图的深度理解。
正因如此,在蚂蚁内部,灵光被定义为“在技术前沿上,在最不稳定的边界上建立产品”。
与其他AI生成Web应用的产品相比,灵光的特色是可直接在移动端上生成应用,且为可直接使用的成品,工程难度更高。
△一句话用灵光制作的“吃什么”应用 来源:蚂蚁
今年1月DeepSeek R1的发布,成为蚂蚁决定全力投入AGI的转折点。何征宇回忆起那个时刻的心情,用三个词概括:兴奋、紧迫感、羞愧。
“AGI原本是耗资数百亿、上千亿美元的传说,DeepSeek以很小的资源投入就将其实现,这给了我们极大的信心,”何征宇说,“我们也在反思,以往许多技术积累未能很好表达和整合,让用户直接感受到价值。”
春节后,蚂蚁集结资源,成立了独立的AGI组织“Inclusion AI”,一个集Research(研究)、Engineering(工程)、Producting(产品)三位一体的架构。
战略上,蚂蚁也做出选择:不意在争夺AI通用助手入口——例如主打AI陪伴的豆包,希望用户消耗更多时间,而是先聚焦更细分的方向:编程能力 + 全模态,定位效率工具。
围绕这一细分目标,蚂蚁做了不少取舍。例如,今年模型厂商纷纷竞争推理能力,但灵光并未选择嵌入产品中。“DeepSeek已经做得足够出色,能解决许多问题,我们无需复刻。”蔡伟表示。
蚂蚁押注的是基础模型不断增长的代码能力。
在“灵光”立项的2025年3月,基础模型的编程能力仍处于非常早期阶段,一句话生成应用的效果极不理想。
“我们当时确定编程是重要能力,并将持续发展。但到底能发展到什么程度,是在3个月、6个月还是9个月达到用户预期?其实充满不确定性。”蔡伟表示。
模型能力决定了产品的上限。蚂蚁选择从模型和产品两个方向同步推进——基模团队提升底层代码能力,应用团队负责后训练和产品打磨。
而蚂蚁选择的功能迭代都是可长期积累、可复用的模块。当基础模型升级时,所有后训练优化都能叠加,而非推倒重来。
在DeepSeek时刻之后,各家的AI应用在产品主张上已显着分化。当下,品味可能比短期竞争更为重要。
差异化是如今AI市场的关键问题——通用AI助手依托强大基座模型迭代,市场竞争已趋饱和。例如,字节的豆包走更亲民、偏重语音交互等多模态路线;而DeepSeek、Kimi则侧重专业化工作场景。
用一句话概括蚂蚁的AGI策略,或许是成为AGI时代的二维码。
这意味着以最小成本寻找新技术的PMF(产品市场契合度),切口要小,交付价值足够集中。“二维码不是我们发明的,但我们推广最广泛,将其应用于支付场景,今天的AI应用也面临类似挑战。”何征宇说。
未来,灵光规划打造闪应用生态,包括应用市场、托管平台和分享机制。“我们仍希望降低所有人创作和消费闪应用的门槛。”蔡伟说。短期内,灵光平台计划上线创作收益页面,探索应用从创作到消费的闭环。
封面来源|AI生成
👇🏻 扫码加入「智涌AI交流群」👇🏻
欢迎交流
本文由主机测评网于2026-01-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120995.html