当前位置:首页 > 科技资讯 > 正文

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律

在AI领域巨头云集的赛场上,一个以往或许仅能居于次要地位的参与者,正发起新的挑战。它便是坐落于北京中关村人工智能核心区域、却在AI技术领域长期被认为存在感较弱的微博。

近期,微博推出了首个开源模型 VibeThinker,它以仅15亿的微小参数和7800美元的极低成本,在国际顶级数学测试中获得了相对高分,刷新了智能极限。这一成果,犹如以轻巧之姿,刺向了“规模即智能”的行业铁律。

《真故研究室》独家专访了微博首席科学家张俊林。他坦言,这是一次突破行业共识的实践。“在此之前,无人相信小模型能应对复杂问题,但VibeThinker证明了可行性。” 这场低成本、高智能的突袭,或将重新定义AI赛道的竞争规则。

01 夺榜

“当看到VibeThinker在国际顶级数学测试中取得优异成绩,我深感惊喜。”在北京的新浪总部大厦,张俊林对《真故研究室》表示。

VibeThinker的研发周期从今年9月到11月,为期三个月。如同许多新发布的大模型一样,它需要通过“打榜”来确立自身“最强大脑”在行业中的位置。

评估一个新大模型的逻辑推理能力,业内通常依靠三大基础评测:数学、竞赛编程和科学知识。若得分靠前,相当于一位职场专业人士获得了某一领域的“职业资格证”。这份成绩既能吸引投资与人才,也能完成市场宣传和用户心智教育。

VibeThinker的高评分主要集中在数学领域。大模型数学领域的三个高难度测试集包括AIME2024、AIME2025和HMMT2025。这些测试集以复杂性和挑战性闻名,常用于评估大模型的数学推理能力。

其中,AIME全称为“美国数学邀请赛”,始于1983年,由美国数学协会制定和主办,通常由30道填空题组成。

HMMT全称为“哈佛-麻省理工数学锦标赛”,始于1998年,由近50道数学题组成。它是一项面向高中生的、最具挑战性的团队国际数学竞赛之一。HMMT的题目难度普遍认为大于AIME。

作为两项极具挑战性的人类数学考试,AIME和HMMT旨在从大量数学能力优秀的学生中,精准筛选出极少数的数学顶尖精英。如今用于大模型评测,也扮演着“过滤器”和“强化器”的角色,自然成为了评估大模型高级推理能力的“试金石”和“标杆”。

张俊林透露,VibeThinker在AIME2024(即2024年度)、AIME2025(即2025年度)和HMMT2025三个测试集中的得分,分别为80.4分、74.4分和50.5分。

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律 开源AI模型 数学推理 低成本训练 微博AI应用 第1张

图  | VibeThinker在测试集中的得分,源自张俊林微博 

“这并非意味着VibeThinker的得分是行业最高,而应相对看待。”他将通过这三项数学测试的各类大模型,从能力上分为三档。 

以AIME2025为例,通过该数学测试集的大模型最高得分为95分。获得平均90分以上的玩家,仍以参数量超过1000亿或接近1000亿的超大模型为主,比如智谱的GLM-4.6(3550亿参数)、Kimi-K2 thinking(10000亿参数)、GPT5、Gemini 3.0 Pro,归为第一档。

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律 开源AI模型 数学推理 低成本训练 微博AI应用 第2张

图  | AIME2025数学测试集 

第二档平均为88分,获得这一分数的模型主要有Gemini2.5 Pro、Open AI的O4系列模型。

相较之下,VibeThinker在AIME2025中评分为74.4分,与前两个档位的模型仍有显著差距,但它胜在模型参数仅15亿,基本属于最小模型。

在这个所谓第三档的圈层里,年初发布的DeepSeek-R1得到70分,但R1参数高达6850亿,是VibeThinker参数的数百倍。VibeThinker的评分也接近于参数为4560亿的MiniMax-M1所获评分,显示出微博凭借技术攻坚在数学领域方面,以小模型刷新了智能极限。

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律 开源AI模型 数学推理 低成本训练 微博AI应用 第3张

图  | HMMT2025数学测试集 

大模型一般分为文科智能和理科智能。文科智能指大模型写文章是否有文采。在数学测试中评分高,意味着理科智能高。但这并非意味着要成为垂类数学大模型,而是类似于人们常说的‘学好数理化,走遍天下都不怕’,数学能力是大模型推理能力的重要基础。”张俊林说。

理科智能高,训练成本也创新低。据披露,VibeThinker的后训练成本(指大模型在预训练完成后,通过指令微调、对齐优化等过程中产生的成本)仅7800美元。张俊林测算,大约比DeepSeek-R1的后训练成本降低了40倍,性价比突出。

至此,在中国已发布的1509个大模型中(新华社7月发布),VibeThinker至少在数学测试子集中,以“以小博大”的成绩和“较高的理科智能”占据了一席之地。

微博,这个被认为正用AI改造平台基因的企业,也终于在继此前发布的知微大模型之后,有了第二张具备辨识度的大模型产品。

但张俊林也强调,“ViberThinker目前拥有的能力局限于数学和竞赛编程方面的推理,我们未用聊天数据调整模型,暂不适合日常对话,还需进一步训练。

攻坚

VibeThinker在AIME2025的测评中,74.4分是如何达到的?

张俊林的答案是:从4分开始逐步提升的。

作为大模型行业中的“轻量级选手”,VibeThinker挑战高度智能,并不被看好。因为行业普遍认为,要实现复杂推理能力,需1000亿以上参数才能涌现(1000亿为大模型入门门槛),而10亿左右及以下的小模型,通常因无法处理高难度问题而被视为“天生不足”。

然而,这恰是张俊林希望通过探索新知、挑战行业传统观点的兴奋点,也是他愿在微博深耕多年的原因之一。早年从事自然语言处理和检索结合研究的他,认为微博有两个优势。一是社交数据丰厚且开放,是重要战略资源;二是微博愿意提供“新课题探索空间”。

数月前,VibeThinker项目启动,整个研发难度呈现“先易后难”趋势。

起初,张俊林团队利用阿里千问大模型做了一个基础模型(Foundation Model)。相当于获得一块原生矿石,接下来需对其进行雕琢、加工,即进行“后训练”(模型微调、对齐),以生成专属产品。

张俊林团队用此基础模型,先在AIME2025部分子集测试,得分仅四点几分。随后要做的,就是对这块原生矿石进行训练,提升其解题和推理能力。

从4分多提到50分相对容易,张俊林团队采用的训练方法是改进版本的GRPO 强化学习算法。

GRPO强化学习算法由Group(分组) + Relative(相对) + Policy Optimization(策略优化)组成,此前行业内更多使用RLHF,即人类反馈强化学习。

两种训练机制有异。AI研发者为训练优质模型,通常需建立奖惩机制。RLHF机制通过雇佣考官(即先训练奖励模型),根据标准答案,对被训练模型的每一步打分,从而实现训练。但缺点是成本高、训练不稳定。

而GRPO 训练法,则建立了一套新训练机制,让模型(即被训练模型)比前一日表现更佳,相当于内生驱动。此框架优点是成本低、训练稳定、效果卓越。

借助GRPO强化学习算法,VibeThinker迅速从4分攀升至50多分,但之后路途愈发艰难。张俊林明显感到,“每提升1分都变得困难,有时像卡在楼梯上,不知如何突破。”

张俊林认为,“与做AI应用强调效果确定性不同,做AI基础研究是不确定的,无人预知结果。”

这里所谓的“AI基础研究”,指行业内未知15亿参数的最小模型,其智能上限何在?

“是50分已达上限,还是能更高。”每一分代表的关头,考验着AI工程师们的决断——是继续攀升,还是止步于此。

像提升孩子高考数学分那样,张俊林每日提早1-2小时、约8点到办公室,通过阅读行业最新论文获取“外部智援”。

据他观察,AI行业每日发布论文以千计,其中深度推理相关论文,从每日70-80篇到300多篇不等。张俊林阅读速度极快,先看标题和摘要判断内容,但他发现,99%以上论文不具备解决一线开发者问题的落地能力。

他只得采用最朴素方法——试错,张俊林称之为“自我改进”。通过在研发中尝试多种训练方法,一分一分争取。类似数学高考冲刺,50分冲到100分或许难度可控,但100分冲到110分,方法需从普适经验转向个人创新。

此过程中,张俊林团队提出了名为“频谱到信号原理”(简称SSP)的方法训练大模型。行业内有相关提法,但无专门论文论述。真正将原理付诸独家实践的,正是VibeThinker。

也正是凭借此法,VibeThinker大模型的数学能力,最终战胜了超越其数百倍体量的“巨人”。

所谓“频谱到信号原理”方法,其核心是张俊林团队重新思考和确立了SFT与RL两步训练的关系。

SFT是“监督微调”(Supervised Fine-Tuning)缩写,旨在让基础大模型这一原生矿石,进一步适应特定领域训练,打好基础,如让VibeThinker夯实数学基础。

RL是“强化学习”(Reinforcement Learning)缩写,其核心思想是通过奖励机制引导模型行为,让大模型答案生成更符合人类偏好,从而提升回答质量、安全性等。

张俊林认为,行业一般通行做法是SFT训练在前、RL在后,两者目标相同,都为提升模型生成准确性。但他觉得SFT+RL模式问题在于,两者优化目标一致,未体现区别与配合,SFT和RL两阶段都在优化Pass@1(行话,即重视首个回答准确率),相比RL,SFT本身缺乏探索性,若如此做,后续RL探索空间就小,会阻碍模型效果。

他的做法是尝试将RL和SFT分工合作,SFT应配合RL,优先优化Pass@K(行话,即重视模型的一题多解能力),先提升解决问题多样性,从而为后续RL打开探索空间。

“此法类似推荐系统中的‘召回+排序’两阶段流程,召回负责多样性,排序负责精准性,是频谱到信号原理的体现。”张俊林表示。

类似于训练学生解题能力,先注重提升解题思维和方法,再实现解题正确性——即先锻炼思维、再达成结果。

张俊林团队实践发现,“这样能提升小模型训练效果”,也正是通过此操作,团队成功将VibeThinker在AIME2025的得分,从50多分逐步提升至74.4分。

其实,通过类似模型训练方法创新实现降本增效,已成行业共识。如“知识蒸馏”就被视为模型训练的一种战术级创新。

而微博张俊林团队的“频谱到信号原理”创新,无疑为行业贡献了新选择方案,属大模型建造流程的重新思考,进一步改变了传统模型训练单纯依赖堆算力、堆参数、烧钱的惯性。

VibeThinker将科研成果以合适方式对海内外业界详细说明,尤其在海外产生广泛影响,吸引诸多权威科技媒体报道。张俊林远在美国Meta的朋友来电,希望用频谱到信号原理方法复刻相关模型。

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律 开源AI模型 数学推理 低成本训练 微博AI应用 第4张

图  | VibeThinker大模型的推出,在海外也引发广泛关注 

应用

VibeThinker的实践,推翻了行业固有结论——小模型难以具备高度推理能力。

张俊林表示,“VibeThinker是开源十分彻底的模型,将有助于微博平台继续生成各类AI应用,也能将技术红利外溢给其他主体,尤其是中小企业,完全可在VibeThinker基础上再开发,服务于自身业务。”

实际上,微博开发VibeThinker并非来自天马行空的“前沿未知探索”,其出发点主要服务于微博平台内一项实际应用需求——即评论罗伯特

评论罗伯特,是微博于2023年7月上线的一款AI机器人。顾名思义,它活跃于评论区,其具体运作机制最初基于微博自研闭源大模型——知微大模型,深度学习微博用户发布的各类帖子,从而生成评论贴,与用户互动。

诞生之初,评论罗伯特以横冲直撞的魔童风格生成各类评论,一度成为社交话题。

微博开源模型VibeThinker:小参数大智能,挑战AI行业规模定律 开源AI模型 数学推理 低成本训练 微博AI应用 第5张

图  | 评论罗伯特,微博用户大多遇到过 

评论罗伯特,并非微博自上而下策划的公司S级项目,而是源于微博公司内周期性举办的“AI创新大赛”。自ChatGPT诞生后,微博鼓励员工以2-3人为单位,为平台内可能的AI应用提出创意。

评论罗伯特,就是众多方案之一。它未在员工创意评选中获大奖,但微博以“试一试”心态,意外将它从创意落实为具体产品。

支持评论罗伯特运行的大模型,于今年6月融合了类似DeepSeek-R1模型的深度思考能力,旨在借用其深度学习与思考能力,提升回复的逻辑深度和个性化水平,优化用户体验。

但这也带来相应问题。因模型规模较大,每次深度思考与回复耗时长,使用成本偏高。有公开报道称,DeepSeek-R1每次推理激活参数量为370亿,占总参数量5.5%,虽在“干活”时已实现降本增效,但成本仍不算低。

微博方面透露,评论罗伯特每日约生成百万条AI评论,且专挑粉丝数仅几百的微博普通用户,旨在给许多情绪低沉的用户以心理抚慰。

看似仅“一位罗伯特”在运作,实则此应用背后有6、7位Agent负责操作。有的Agent专职遴选粉丝数少的微博用户,有的Agent负责学习用户帖子及图片内容,有的Agent负责生成评论。甚至连评论风格也细分给数个Agent,有的负责娱乐线、有的负责科技线,有的走犀利派,有的行温情风。

张俊林恰是评论罗伯特项目负责人。应项目需求,开发一款参数更小、使用成本低廉、但智能保持较高水平的大模型,成了最直接动力。这才有了VibeThinker模型的诞生,以及张俊林团队为期3个月的“数学能力攻坚战”。

回顾这三个月,张俊林坦言,“头脑转不动、情绪低沉”的时刻常有,但作为AI研发者,面对万难,核心开发者的解题思路朴素得出奇。

“遇到问题、头脑风暴、思考解决方案、然后试错,此路不通换一条,彼此用理性说服”,几乎就是这样一条平凡路径。这本质上是AI研发工程师们一种被数学牵引的思维之光。

目前,微博平台内已实现开源模型与知微大模型的“双模型引擎”。前者还负责微博平台内另一款受欢迎的AI应用——微博智搜,它与评论罗伯特成为微博AI应用的两块看板,进一步激活了微博现有生态。

据微博2025年Q3财报,微博智搜MAU突破7000万,DAU和检索量环比提升超50%。至于评论罗伯特,尽管有用户对互动不感冒,但张俊林内部A/B测试显示,引入评论罗伯特后,微博用户活跃度提升,平台社交氛围改善。而普通人社交,恰是微博平台需补强之处。

张俊林表示,接下来将基于VibeThinker探索出的技术,一方面融入微博领域数据提升现有AI应用效果,一方面减少模型参数大幅节省应用成本。同时VibeThinker将进一步训练,摸索其他方面提升智能的方法。他也欢迎外部主体活用其成果,对自身业务降本增效与应用赋能。

最后,他总结小模型的未来:“从罗伯特中来,到罗伯特们中去。”类似大家熟知的那句话,从群众中来,到群众中去,AI用起来方便、便宜、能成事才是关键。