当前位置：首页 > 科技资讯 > 正文

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律

主机测评网
科技资讯
2026-01-30
836

在AI领域巨头云集的赛场上，一个以往或许仅能居于次要地位的参与者，正发起新的挑战。它便是坐落于北京中关村人工智能核心区域、却在AI技术领域长期被认为存在感较弱的微博。

近期，微博推出了首个开源模型 VibeThinker，它以仅15亿的微小参数和7800美元的极低成本，在国际顶级数学测试中获得了相对高分，刷新了智能极限。这一成果，犹如以轻巧之姿，刺向了“规模即智能”的行业铁律。

《真故研究室》独家专访了微博首席科学家张俊林。他坦言，这是一次突破行业共识的实践。“在此之前，无人相信小模型能应对复杂问题，但VibeThinker证明了可行性。” 这场低成本、高智能的突袭，或将重新定义AI赛道的竞争规则。

01 夺榜

“当看到VibeThinker在国际顶级数学测试中取得优异成绩，我深感惊喜。”在北京的新浪总部大厦，张俊林对《真故研究室》表示。

VibeThinker的研发周期从今年9月到11月，为期三个月。如同许多新发布的大模型一样，它需要通过“打榜”来确立自身“最强大脑”在行业中的位置。

评估一个新大模型的逻辑推理能力，业内通常依靠三大基础评测：数学、竞赛编程和科学知识。若得分靠前，相当于一位职场专业人士获得了某一领域的“职业资格证”。这份成绩既能吸引投资与人才，也能完成市场宣传和用户心智教育。

VibeThinker的高评分主要集中在数学领域。大模型数学领域的三个高难度测试集包括AIME2024、AIME2025和HMMT2025。这些测试集以复杂性和挑战性闻名，常用于评估大模型的数学推理能力。

其中，AIME全称为“美国数学邀请赛”，始于1983年，由美国数学协会制定和主办，通常由30道填空题组成。

HMMT全称为“哈佛-麻省理工数学锦标赛”，始于1998年，由近50道数学题组成。它是一项面向高中生的、最具挑战性的团队国际数学竞赛之一。HMMT的题目难度普遍认为大于AIME。

作为两项极具挑战性的人类数学考试，AIME和HMMT旨在从大量数学能力优秀的学生中，精准筛选出极少数的数学顶尖精英。如今用于大模型评测，也扮演着“过滤器”和“强化器”的角色，自然成为了评估大模型高级推理能力的“试金石”和“标杆”。

张俊林透露，VibeThinker在AIME2024（即2024年度）、AIME2025（即2025年度）和HMMT2025三个测试集中的得分，分别为80.4分、74.4分和50.5分。

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律开源AI模型数学推理低成本训练微博AI应用第1张

图 | VibeThinker在测试集中的得分，源自张俊林微博

“这并非意味着VibeThinker的得分是行业最高，而应相对看待。”他将通过这三项数学测试的各类大模型，从能力上分为三档。

以AIME2025为例，通过该数学测试集的大模型最高得分为95分。获得平均90分以上的玩家，仍以参数量超过1000亿或接近1000亿的超大模型为主，比如智谱的GLM-4.6（3550亿参数）、Kimi-K2 thinking（10000亿参数）、GPT5、Gemini 3.0 Pro，归为第一档。

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律开源AI模型数学推理低成本训练微博AI应用第2张

图 | AIME2025数学测试集

第二档平均为88分，获得这一分数的模型主要有Gemini2.5 Pro、Open AI的O4系列模型。

相较之下，VibeThinker在AIME2025中评分为74.4分，与前两个档位的模型仍有显著差距，但它胜在模型参数仅15亿，基本属于最小模型。

在这个所谓第三档的圈层里，年初发布的DeepSeek-R1得到70分，但R1参数高达6850亿，是VibeThinker参数的数百倍。VibeThinker的评分也接近于参数为4560亿的MiniMax-M1所获评分，显示出微博凭借技术攻坚在数学领域方面，以小模型刷新了智能极限。

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律开源AI模型数学推理低成本训练微博AI应用第3张

图 | HMMT2025数学测试集

“大模型一般分为文科智能和理科智能。文科智能指大模型写文章是否有文采。在数学测试中评分高，意味着理科智能高。但这并非意味着要成为垂类数学大模型，而是类似于人们常说的‘学好数理化，走遍天下都不怕’，数学能力是大模型推理能力的重要基础。”张俊林说。

理科智能高，训练成本也创新低。据披露，VibeThinker的后训练成本（指大模型在预训练完成后，通过指令微调、对齐优化等过程中产生的成本）仅7800美元。张俊林测算，大约比DeepSeek-R1的后训练成本降低了40倍，性价比突出。

至此，在中国已发布的1509个大模型中（新华社7月发布），VibeThinker至少在数学测试子集中，以“以小博大”的成绩和“较高的理科智能”占据了一席之地。

微博，这个被认为正用AI改造平台基因的企业，也终于在继此前发布的知微大模型之后，有了第二张具备辨识度的大模型产品。

但张俊林也强调，“ViberThinker目前拥有的能力局限于数学和竞赛编程方面的推理，我们未用聊天数据调整模型，暂不适合日常对话，还需进一步训练。”

攻坚

VibeThinker在AIME2025的测评中，74.4分是如何达到的？

张俊林的答案是：从4分开始逐步提升的。

作为大模型行业中的“轻量级选手”，VibeThinker挑战高度智能，并不被看好。因为行业普遍认为，要实现复杂推理能力，需1000亿以上参数才能涌现（1000亿为大模型入门门槛），而10亿左右及以下的小模型，通常因无法处理高难度问题而被视为“天生不足”。

然而，这恰是张俊林希望通过探索新知、挑战行业传统观点的兴奋点，也是他愿在微博深耕多年的原因之一。早年从事自然语言处理和检索结合研究的他，认为微博有两个优势。一是社交数据丰厚且开放，是重要战略资源；二是微博愿意提供“新课题探索空间”。

数月前，VibeThinker项目启动，整个研发难度呈现“先易后难”趋势。

起初，张俊林团队利用阿里千问大模型做了一个基础模型（Foundation Model）。相当于获得一块原生矿石，接下来需对其进行雕琢、加工，即进行“后训练”（模型微调、对齐），以生成专属产品。

张俊林团队用此基础模型，先在AIME2025部分子集测试，得分仅四点几分。随后要做的，就是对这块原生矿石进行训练，提升其解题和推理能力。

从4分多提到50分相对容易，张俊林团队采用的训练方法是改进版本的GRPO 强化学习算法。

GRPO强化学习算法由Group（分组） + Relative（相对） + Policy Optimization（策略优化）组成，此前行业内更多使用RLHF，即人类反馈强化学习。

两种训练机制有异。AI研发者为训练优质模型，通常需建立奖惩机制。RLHF机制通过雇佣考官（即先训练奖励模型），根据标准答案，对被训练模型的每一步打分，从而实现训练。但缺点是成本高、训练不稳定。

而GRPO 训练法，则建立了一套新训练机制，让模型（即被训练模型）比前一日表现更佳，相当于内生驱动。此框架优点是成本低、训练稳定、效果卓越。

借助GRPO强化学习算法，VibeThinker迅速从4分攀升至50多分，但之后路途愈发艰难。张俊林明显感到，“每提升1分都变得困难，有时像卡在楼梯上，不知如何突破。”

张俊林认为，“与做AI应用强调效果确定性不同，做AI基础研究是不确定的，无人预知结果。”

这里所谓的“AI基础研究”，指行业内未知15亿参数的最小模型，其智能上限何在？

“是50分已达上限，还是能更高。”每一分代表的关头，考验着AI工程师们的决断——是继续攀升，还是止步于此。

像提升孩子高考数学分那样，张俊林每日提早1-2小时、约8点到办公室，通过阅读行业最新论文获取“外部智援”。

据他观察，AI行业每日发布论文以千计，其中深度推理相关论文，从每日70-80篇到300多篇不等。张俊林阅读速度极快，先看标题和摘要判断内容，但他发现，99%以上论文不具备解决一线开发者问题的落地能力。

他只得采用最朴素方法——试错，张俊林称之为“自我改进”。通过在研发中尝试多种训练方法，一分一分争取。类似数学高考冲刺，50分冲到100分或许难度可控，但100分冲到110分，方法需从普适经验转向个人创新。

此过程中，张俊林团队提出了名为“频谱到信号原理”（简称SSP）的方法训练大模型。行业内有相关提法，但无专门论文论述。真正将原理付诸独家实践的，正是VibeThinker。

也正是凭借此法，VibeThinker大模型的数学能力，最终战胜了超越其数百倍体量的“巨人”。

所谓“频谱到信号原理”方法，其核心是张俊林团队重新思考和确立了SFT与RL两步训练的关系。

SFT是“监督微调”（Supervised Fine-Tuning）缩写，旨在让基础大模型这一原生矿石，进一步适应特定领域训练，打好基础，如让VibeThinker夯实数学基础。

RL是“强化学习”（Reinforcement Learning）缩写，其核心思想是通过奖励机制引导模型行为，让大模型答案生成更符合人类偏好，从而提升回答质量、安全性等。

张俊林认为，行业一般通行做法是SFT训练在前、RL在后，两者目标相同，都为提升模型生成准确性。但他觉得SFT+RL模式问题在于，两者优化目标一致，未体现区别与配合，SFT和RL两阶段都在优化Pass@1（行话，即重视首个回答准确率），相比RL，SFT本身缺乏探索性，若如此做，后续RL探索空间就小，会阻碍模型效果。

他的做法是尝试将RL和SFT分工合作，SFT应配合RL，优先优化Pass@K（行话，即重视模型的一题多解能力），先提升解决问题多样性，从而为后续RL打开探索空间。

“此法类似推荐系统中的‘召回+排序’两阶段流程，召回负责多样性，排序负责精准性，是频谱到信号原理的体现。”张俊林表示。

类似于训练学生解题能力，先注重提升解题思维和方法，再实现解题正确性——即先锻炼思维、再达成结果。

张俊林团队实践发现，“这样能提升小模型训练效果”，也正是通过此操作，团队成功将VibeThinker在AIME2025的得分，从50多分逐步提升至74.4分。

其实，通过类似模型训练方法创新实现降本增效，已成行业共识。如“知识蒸馏”就被视为模型训练的一种战术级创新。

而微博张俊林团队的“频谱到信号原理”创新，无疑为行业贡献了新选择方案，属大模型建造流程的重新思考，进一步改变了传统模型训练单纯依赖堆算力、堆参数、烧钱的惯性。

VibeThinker将科研成果以合适方式对海内外业界详细说明，尤其在海外产生广泛影响，吸引诸多权威科技媒体报道。张俊林远在美国Meta的朋友来电，希望用频谱到信号原理方法复刻相关模型。

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律开源AI模型数学推理低成本训练微博AI应用第4张

图 | VibeThinker大模型的推出，在海外也引发广泛关注

应用

VibeThinker的实践，推翻了行业固有结论——小模型难以具备高度推理能力。

张俊林表示，“VibeThinker是开源十分彻底的模型，将有助于微博平台继续生成各类AI应用，也能将技术红利外溢给其他主体，尤其是中小企业，完全可在VibeThinker基础上再开发，服务于自身业务。”

实际上，微博开发VibeThinker并非来自天马行空的“前沿未知探索”，其出发点主要服务于微博平台内一项实际应用需求——即评论罗伯特。

评论罗伯特，是微博于2023年7月上线的一款AI机器人。顾名思义，它活跃于评论区，其具体运作机制最初基于微博自研闭源大模型——知微大模型，深度学习微博用户发布的各类帖子，从而生成评论贴，与用户互动。

诞生之初，评论罗伯特以横冲直撞的魔童风格生成各类评论，一度成为社交话题。

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律开源AI模型数学推理低成本训练微博AI应用第5张

图 | 评论罗伯特，微博用户大多遇到过

评论罗伯特，并非微博自上而下策划的公司S级项目，而是源于微博公司内周期性举办的“AI创新大赛”。自ChatGPT诞生后，微博鼓励员工以2-3人为单位，为平台内可能的AI应用提出创意。

评论罗伯特，就是众多方案之一。它未在员工创意评选中获大奖，但微博以“试一试”心态，意外将它从创意落实为具体产品。

支持评论罗伯特运行的大模型，于今年6月融合了类似DeepSeek-R1模型的深度思考能力，旨在借用其深度学习与思考能力，提升回复的逻辑深度和个性化水平，优化用户体验。

但这也带来相应问题。因模型规模较大，每次深度思考与回复耗时长，使用成本偏高。有公开报道称，DeepSeek-R1每次推理激活参数量为370亿，占总参数量5.5%，虽在“干活”时已实现降本增效，但成本仍不算低。

微博方面透露，评论罗伯特每日约生成百万条AI评论，且专挑粉丝数仅几百的微博普通用户，旨在给许多情绪低沉的用户以心理抚慰。

看似仅“一位罗伯特”在运作，实则此应用背后有6、7位Agent负责操作。有的Agent专职遴选粉丝数少的微博用户，有的Agent负责学习用户帖子及图片内容，有的Agent负责生成评论。甚至连评论风格也细分给数个Agent，有的负责娱乐线、有的负责科技线，有的走犀利派，有的行温情风。

张俊林恰是评论罗伯特项目负责人。应项目需求，开发一款参数更小、使用成本低廉、但智能保持较高水平的大模型，成了最直接动力。这才有了VibeThinker模型的诞生，以及张俊林团队为期3个月的“数学能力攻坚战”。

回顾这三个月，张俊林坦言，“头脑转不动、情绪低沉”的时刻常有，但作为AI研发者，面对万难，核心开发者的解题思路朴素得出奇。

“遇到问题、头脑风暴、思考解决方案、然后试错，此路不通换一条，彼此用理性说服”，几乎就是这样一条平凡路径。这本质上是AI研发工程师们一种被数学牵引的思维之光。

目前，微博平台内已实现开源模型与知微大模型的“双模型引擎”。前者还负责微博平台内另一款受欢迎的AI应用——微博智搜，它与评论罗伯特成为微博AI应用的两块看板，进一步激活了微博现有生态。

据微博2025年Q3财报，微博智搜MAU突破7000万，DAU和检索量环比提升超50%。至于评论罗伯特，尽管有用户对互动不感冒，但张俊林内部A/B测试显示，引入评论罗伯特后，微博用户活跃度提升，平台社交氛围改善。而普通人社交，恰是微博平台需补强之处。

张俊林表示，接下来将基于VibeThinker探索出的技术，一方面融入微博领域数据提升现有AI应用效果，一方面减少模型参数大幅节省应用成本。同时VibeThinker将进一步训练，摸索其他方面提升智能的方法。他也欢迎外部主体活用其成果，对自身业务降本增效与应用赋能。

最后，他总结小模型的未来：“从罗伯特中来，到罗伯特们中去。”类似大家熟知的那句话，从群众中来，到群众中去，AI用起来方便、便宜、能成事才是关键。

免费服务器性价比vps 阿里云服务器

本文由主机测评网于2026-01-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260121760.html

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律

01 夺榜

攻坚

应用

2025最新生成SSH密钥和SSL证书的标准流程（Linux/macOS/Windows系统服务器通用方案）

Linux进程等待机制全解析（掌握wait与waitpid函数的使用）

微博开源模型VibeThinker：小参数大智能，挑战AI行业规模定律

01 夺榜

攻坚

应用

2025最新生成SSH密钥和SSL证书的标准流程（Linux/macOS/Windows系统服务器通用方案）

Linux进程等待机制全解析（掌握wait与waitpid函数的使用）

相关文章