当前位置:首页 > 科技资讯 > 正文

Step 3.5 Flash:全球开发者用户之选,引领Agent时代

当一款模型能够完美融合Agent(智能体)的能力,同时保持高效的推理速度,且拥有极低的幻觉率,其结果如何?答案是显而易见的:

开发者与用户的真实反馈,将迅速通过实际采用和真金白银的Token投票来决定。

这正是全球AI圈正在经历的现象。阶跃星辰开源模型Step 3.5 Flash发布后,迅速成为全球焦点,不仅首日即在OpenRouter榜单上跃居全球最快模型之列,更在短短两天内登顶Trending全球趋势榜榜首。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第1张

不同于基准跑分或媒体评测。OpenRouter作为全球AI模型聚合平台,汇聚了几乎所有知名的开源与闭源模型,吸引了大量全球AI开发者与用户。其榜单数据来源于开发者与用户的真实API调用,过去一年里,它已成为评估大模型性能的重要试金石。

尤为重要的是Trending全球趋势榜,它并不关注参数最大或跑分最强的模型,而是关注开发者与用户实际调用模型的情况,即哪个模型更实用、更易用。

这也揭示了Step 3.5 Flash此次‘全球第一’的非凡意义。

开发者不迷信跑分,只认‘高分高能’

2月2日,阶跃星辰发布开源模型Step 3.5 Flash,迅速吸引了行业的广泛关注。其首次反应是考察其‘智能密度’。

基准测试显示,Step 3.5 Flash在数学推理(AIME 2025评分97.3)和代码修复(SWE-bench Verified达74.4%)上表现卓越,PaCoRe强化版甚至将AIME 2025成绩提升至近乎满分的99.9。

然而,对开发者而言,更具吸引力的是其‘以巧见大’的特质。

阶跃星辰公开了Step 3.5 Flash的技术报告,详细介绍了其模型结构上的创新设计。它采用了稀疏混合专家(MoE)架构,在保持1960亿总参数的同时,每个Token处理时都会动态选择最适合的‘专家’,仅需110亿激活参数即可实现前沿级智能。

打个比方,这就像一个由196名顶尖专家组成的智囊团。当接到具体代码任务时,系统能瞬间精准地挑选出最专业的11人参与工作。对开发者与用户而言,支付的是11B模型的成本,获得的是196B模型的思考深度,性能媲美GPT-5.2 xHigh、Gemini 3 Pro等前沿模型。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第2张

为解决长上下文瓶颈,Step 3.5 Flash还通过3:1滑动窗口与全局注意力混合架构(SWA+Full Attention)实现256K长上下文的高效处理,极大节省显存。这些在一定程度上解决了Agent时代成本与效果的矛盾。

但Step 3.5 Flash的‘巧’不仅限于此。测试显示,Step 3.5 Flash支持100–300 TPS(每秒Token数)的生成吞吐量,部分场景下甚至可达最高350 TPS,远超去年50-100 TPS的主流水平。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第3张

这一成就的关键在于MTP-3(三路多Token预测)技术。

传统模型的推理类似‘蹦豆子’,而MTP-3允许模型在生成当前内容时同时预测后续多个Token。这不仅是速度的提升,也改变了模型的思考逻辑——让模型在开口前已预判了后续几步。

在多轮工具调用的Agent场景下,‘连贯性’至关重要,大幅减少了模型在复杂逻辑中的‘卡顿’与‘失忆’,使原本断断续续的AI操作变得既快又顺畅。

那么实际表现如何呢?

在YouTube科技博主Bijan Bowen的实测中,Step 3.5 Flash能准确区分瑞典设计与纽约金融风格的差异,从字体、布局到交互逻辑都能持续优化。甚至,Step 3.5 Flash还生成了一个功能完备的浏览器操作系统(WebOS),且是测试模型中唯一可运行经典游戏‘Memory Game’的模型。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第4张

这种能力也是模型知识容量、推理与执行能力叠加的体现。

另一方面,有Discord用户在128GB内存的Mac(M3 Max)上本地部署运行Step 3.5 Flash,实际效果远超预期,性能达到硬件理论效率的70%。他指出,Step 3.5 Flash不仅幻觉率低、输出可靠、中英等多语言混用场景下错误率也低。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第5张

更灵活的部署优势、更低的推理成本以及实际AI使用场景下的强大与易用性,共同促成了Step 3.5 Flash的火爆。

特别是在OpenRouter上,开发者与用户多见‘高分低能’的模型。相较于跑分数据与脱离实际的测试,他们更关心模型在AI应用与系统中的实际表现。在Agent、深度研究、自动化工作流等场景中,模型迁移成本并不低。开发者与用户集体选择Step 3.5 Flash,充分证明了其‘好用’。

阶跃星辰:做Agent时代的引擎

Step 3.5 Flash发布后,阶跃星辰CTO朱亦博在知乎上提到团队在Step 2阶段仍沿更大参数、更强对话能力的路线推进,但迅速意识到这并不成立。

‘不同智能阶段需要不同的基模(基础模型)结构。’他深刻认识到L1 Chatbot时代的基础结构并不适用于L2 Reasoner(推理模型),而L3 Agent时代更需要新的基模结构。

在此背景下,Step 3.5 Flash的训练目标从一开始就聚焦于强大的逻辑、高效的长上下文处理及快速推理能力。这些直接决定了模型的可用性与易用性,包括纠错与自我改进能力。

因为Agent场景下用户更关注任务完成的速度、准确与稳定性。

Bijan Bowen在测试AI生成飞行模拟、赛车游戏时发现,Step 3.5 Flash给出的初始版本虽有小瑕疵但通过提示词反馈后能在原有基础上迭代优化游戏开发质量也会爆发式提高。

Step 3.5 Flash:全球开发者用户之选,引领Agent时代 Flash  Agent OpenRouter 开发者用户 第6张

这也就不难理解Step 3.5 Flash在结构设计上的选择:MoE用于降低推理成本;MTP-3提升连续生成效率;长上下文采用更工程化的方案而非单纯追求理论极限。这些并非为了追逐跑分成绩而是为了让模型在多轮任务中持续工作不掉速、不失忆、不乱编。

Chatbot做不到所以我们需要Agent。

这背后也是整个行业重心的转移。过去大模型的主战场是对话但从2025年开始模型开始大规模引入工作流token对开发者而言变得更重要用户也不再满足于问答而是希望AI能够直接处理复杂任务如大规模代码修改、复杂跨平台流程处理。

写在最后

自2022年底以来生成式AI的爆发已证明大模型能改变内容生产、信息获取乃至人与软件的交互方式从写作、编程到搜索、办公它已融入日常。

但Agent时代的真正到来也带来了不同。我们越来越多地将生活、工作任务交给AI协作甚至完成。比起说得对与否我们更看重AI‘干活’的表现无论跨平台对比Mac Mini(M4)的价格还是对大型代码库的修改。

阶跃星辰的开源模型Step 3.5 Flash做到了所以在现实赛场上如OpenRouter上取得了成功被全球开发者与用户采用。

归根结底AI的成功不应只取决于其聪明程度而应在于它能为人类提高效率多少。从这个角度看Step 3.5 Flash的火爆更能说明大模型必须褪去‘炫技’外壳成为一种真正好用的生产力工具。