当前位置:首页 > 科技资讯 > 正文

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明

近期,一个仅80亿参数的轻量级开源模型在AI圈掀起热议——它叫Rnj-1,来自Ashish Vaswani与Niki Parmar共同创办的Essential AI Labs。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第1张

这两位正是2017年那篇颠覆性论文《注意力就是你所需要的一切》(Attention is All You Need)的联合作者——Transformer架构由此诞生,开启了整个大模型时代。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第2张

以上八位作者贡献均等,其中Ashish与Illia共同完成了首个Transformer模型的设计与实现,并深入参与了所有核心研究环节。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第3张

Ashish Vaswani

而Niki在项目初期主导了大量模型变体的设计、实现、调优与评估,是架构探索与实验验证不可或缺的核心力量。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第4张

Niki Parmar

如今,从ChatGPT、Gemini到Claude、Llama,几乎所有主流大模型都建立在Transformer框架之上。然而,这种成功也把整个行业推向了「拼参数、堆算力」的单一赛道。

前不久,Google DeepMind CEO哈萨比斯(Demis Hassabis)甚至断言:要实现AGI,必须将「规模化」进行到极致——更多数据、更强算力、更大模型,并称这「不仅是通往AGI的关键,甚至可能是唯一路径」。

这种观念正是Transformer与Scaling Law共同催生的主流信仰:「模型越大,能力越强」。

但七年后,两位Transformer之父——Ashish Vaswani和Niki Parmar——开始亲手挑战这一信条:

模型的大小并不等同于智能的高低。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第5张

至少从算力效率来看,网友的评论一针见血:

「大模型狂欢已经退潮,真正懂行的人开始打造精致的小模型。」

在ChatGPT、Gemini、Claude之外,以Rnj-1为代表的小模型正开辟另一条道路。

Vaswani的忧虑与Rnj-1的诞生

过去几年,AI领域的资本越聚越多,模型越训越贵,技术路线却越走越窄。

Vaswani认为,巨量资金的涌入反而可能阻碍技术本身的多元发展——以利润为先的企业正逐渐从科学家手中夺走方向盘:

「少数巨头掌控着先进AI的生产节奏与发展方向。他们不仅决定了AI如何进化,也决定了谁能分到蛋糕……封闭式的AI开发只会让我们与更广阔的前沿失之交臂。」

Vaswani和Parmar决心推动一个健康、开放、多元的AI生态,而不是任由技术权力集中在几座高塔之中。

Essential AI Labs以及它开源的第一个模型Rnj-1,正是这种理念的落地。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第6张

Essential AI的使命,就是打造开放的前沿平台与智能工具,让技术不再被少数玩家垄断。

Rnj-1的名字致敬印度传奇数学家拉马努金(Srinivasa Ramanujan),寓意「在有限条件下洞察无限可能」。

据官方介绍,这款从零训练、参数仅80亿的模型,在代码、数学与智能体推理等任务上达到了前沿水平,而且可以在消费级GPU上流畅运行,完全开源,自由修改。

一把「瑞士军刀」式的小模型

与动辄万亿参数的巨兽相比,80亿参数的Rnj-1显得相当克制,上下文长度仅为32k,架构基于开源的Gemma 3。

既然体格不占优,就靠技术取胜。

Rnj-1采用了全局自注意力机制(global self-attention)与YaRN扩展技术。

全局自注意力让模型拥有「全景扫描」能力,无论多长的输入都能一次性全局感知;而YaRN则像「长程阅读眼镜」,让模型在32k上下文中依然保持清晰的推理链条。

Rnj-1的基础版与指令版在同尺寸开源模型中表现相当抢眼。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第7张

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第8张

代码生成:在HumanEval+、MBPP+等算法代码任务及BigCodeBench综合编程评测中,Rnj-1 Base与Instruct的表现不仅稳居同规模榜首,甚至超越了更大的GPT-OSS 20B。

智能体能力:这是Rnj-1的杀手锏之一。在SWE-bench智能体编程任务中,Rnj-1 Instruct的得分比同尺寸模型高出近一个数量级,已逼近千亿级模型的水准。它会主动调用性能分析器定位瓶颈,提出优化方案,甚至多轮迭代改进代码。在Enamel高效算法实现任务中,Rnj-1 Instruct超越强力基线。在伯克利函数调用排行榜(BFCL)上,其工具调用能力也遥遥领先同类模型。

数学与科学推理:在AIME"25(高难度高中数学竞赛题)中,Rnj-1 Instruct的数学推理能力与目前最强的开源模型并驾齐驱。Rnj-1 Base在Minerva-MATH数据集上也保持了同规模顶尖水平。在GPQA-Diamond(涵盖生物、物理、化学的高阶科学题)中,Rnj-1的成绩同样跻身同尺寸第一梯队。

量化稳定,质量无损:Rnj-1对量化的适应能力极强。这意味着它可以在更便宜、更省电的显卡上高速运行,且模型质量几乎不受损失,真正实现「人人可跑、随处可用」。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第9张

从BF16到FP8再到NVFP4,提示密集型任务的Token吞吐量显著提升,而模型质量几乎纹丝不动(数据基于NVIDIA B200 GPU,KV Cache为FP8,批大小128)。

回到起点,不想再做「宇宙巨兽」了

今年2月,Essential AI做出了关键的战略抉择:

回归基础能力本身。

在研究与产品之间,他们选择优先打磨模型底层的智能。

DeepSeek R1发布后,强化学习的威力成为焦点,但Vaswani坚信:压缩是模拟智能的本质,而基于预测的预训练才是更根本的路径。

Essential AI在早期预训练阶段就观察到模型自发涌现出反思与探索式推理的迹象——这印证了「强预训练是下游成功的基石」。他们认为,强大的预训练本身就能孕育推理能力,而不是依赖后期强化学习强行补救。

这是Essential AI迄今为止最核心、也是最根本的判断。

Transformer创始人推出80亿参数小模型Rnj-1,向Scaling Law宣战:不是越大越聪明 Transformer  小模型 开源 Scaling Law 第10张

上图记录了Essential AI在各个阶段的突破。

Rnj-1是他们从头训练的第一个完整大模型。

他们希望模型在学习时不只是「被动浏览海量数据」,而是能主动对数据进行分类、转换、融合,从而构建更深刻的理解框架。这样,模型在数学、代码、科学等可验证任务上的「可测能力」会更强。

团队通过数据分类研究,提出了一种「带重复惩罚的数据分布聚类与混合方法」,显著提升了模型在STEM领域的表现。

此外,训练过程离不开优化器。Essential AI证明了Muon优化器比AdamW更高效,并开发了适配大模型的分片策略。

研究者还认为,大模型不应只理解代码的静态文本,更应模拟代码在不同环境中的动态执行行为。Rnj-1在这一方向进行了大规模尝试,让基础模型学会自动「演化代码」。这些探索在小规模验证中已显著提升了Rnj-1的工程能力。

预训练末期,团队确信Rnj-1已经掌握了数学、编程与科学知识等潜在能力。接下来,他们通过适量监督微调,唤醒其指令遵循与复杂推理能力,并在长对话与现实难题中检验其水平。

在后训练阶段,Essential AI借鉴了YaRN长上下文中期训练、Nemotron及简单智能体环境等方法,主要聚焦三项任务:

研究定向数据对推理与智能体能力的影响;团队亲自「上手体验」模型,观察质变时刻;收集下游反馈,为下一轮预训练指明方向。

Vaswani透露,目前有许多激动人心的想法正在争夺团队的注意力——比如条件计算、扩展超长上下文能力、低精度训练等。他对这些方向充满热情。

中期内,Essential AI将继续沿着「压缩」这一核心理念前行,扩展程序行为模拟的类型与范围,推动代码演化技术的落地。

Vaswani预计,将强化学习等扩展性思路用于培养复杂推理能力的方法,很快就会出现在Essential AI的路线图上。

在官方博客中,Vaswani引用了计算机科学家Alan Perlis的话,作为自己的心声:

我认为,让计算机科学始终充满趣味,这一点至关重要……

我们肩负着不断拓展计算边界、引领它走向新方向的使命,并让这份乐趣生生不息……

最重要的是,我不希望我们变成传教士。不要觉得自己是唯一掌握真理的推销员。这世上那样的人已经太多了。你懂得的计算知识,别人迟早也会学会。别以为成功计算的钥匙只在你手里。

我相信,也期待,你手中握有的是智慧:一种能够超越初见机器时的认知,看到更多可能性,并让它变得更强大的智慧。

开源平台Essential AI以及Rnj-1的发布,正是美国AI开源领域的一次重要落子,旨在轻量化、开放化方向上与中国蓬勃发展的开源生态展开良性竞争。开源的力量,将推动大模型在「唯规模论」的主赛道之外,探索一条人人可用、高效智能的新路径,加速AI普惠时代的到来。

参考资料:

https://www.bloomberg.com/news/articles/2025-12-08/transformer-paper-authors-at-ai-startup-debut-open-source-model?srnd=phx-ai%20

https://www.essential.ai/research/rnj-1