当前位置:首页 > 科技资讯 > 正文

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破

字节跳动近期突然宣布开源其大型语言模型,首款产品便是拥有高达360亿参数的Seed-OSS-36B。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第1张

Seed-OSS这一命名方式,明显是在呼应OpenAI此前发布的GPT-OSS系列。

与OpenAI的开源策略类似,字节跳动并未直接开源核心商业模型豆包(Doubao),而是基于内部技术打造了一个专门面向开源社区的版本。

字节跳动Seed团队已在Hugging Face和GitHub上正式发布这一模型系列,采用Apache-2.0开源协议,可免费用于学术研究和商业部署。

512K上下文窗口与灵活可调的思考预算机制

Seed-OSS最引人注目的特性之一是其原生支持的512K超长上下文窗口。

目前主流开源模型如DeepSeek V3.1的上下文窗口为128K,而Seed-OSS直接提升了4倍。

这512K上下文是在预训练阶段原生构建的,而非通过后期插值等方法强行扩展。

这意味着在法律文档审查、长篇报告分析、复杂代码库理解等需要处理海量信息的专业场景中,Seed-OSS都能游刃有余。

此外,Seed-OSS引入了“思考预算”(Thinking Budget)机制。

通过设定一个token数量,用户可以控制模型思考的深度。例如,设置512个token的预算,模型在推理过程中会这样工作:复制

好的,让我一步步来解决这个问题。题目说的是… 我已经使用了129个token,还剩383个token可用。 使用幂法则,我们可以… 我已经使用了258个token,还剩254个token可用。 另外,记住… 我已经耗尽了token预算,现在开始给出答案。

对于简单任务,可设置较小预算以快速响应;对于复杂数学推理或代码生成,则可分配更多预算让其深入思考。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第2张

字节跳动建议使用512的整数倍(如512、1K、2K、4K、8K或16K)作为预算,因为模型在这些区间上经过了大量训练。

模型架构方面,Seed-OSS采用了成熟稳定的设计:

这是一个360亿参数的稠密模型(非MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。模型共有64层,隐藏层维度5120,词汇表大小155K。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第3张

考虑到合成指令数据可能影响后续研究,字节Seed团队提供了两个版本的基座模型:一个包含合成指令数据以提升性能,另一个不含合成数据以保持纯净,为研究社区提供更多选择。

多项基准测试刷新开源SOTA记录

那么,Seed-OSS的实际表现如何呢?

在知识理解方面,Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分,超过了同等规模Qwen2.5-32B-Base的58.5分。在TriviaQA上更是取得了82.1的高分。

推理能力的BBH基准测试得分87.7,直接刷新了开源模型的记录。数学能力上,GSM8K达到90.8分,MATH为81.7分。

Seed-OSS的代码能力同样出色,HumanEval得分76.8,MBPP达到80.6。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第4张

指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩,仅次于OpenAI的OSS-20B。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第5张

这些成绩是在仅使用12T token训练数据的情况下取得的,而许多同规模模型的训练数据量超过15T。

字节Seed团队的开源生态布局

字节Seed团队成立于2023年,旨在“打造业界最先进的AI基础模型”,研究方向覆盖大语言模型、多模态、AI基础设施等多个前沿领域。

过去一年多时间里,团队已陆续开源多个有影响力的项目,尽管这些多为细分领域模型,而非广受关注的基座语言模型。

字节跳动开源Seed-OSS-36B大模型:360亿参数与512K上下文的突破 字节跳动 Seed-OSS-36B 开源大模型 512K上下文 第6张

今年5月,他们发布了Seed-Coder,一个8B规模的代码生成模型,其创新在于让LLM自主管理和筛选训练数据,大幅提升了代码生成能力。

紧接着,他们又推出了BAGEL,一个能同时处理文本、图像和视频的统一多模态模型,真正实现了“万物皆可输入输出”。

更早之前,他们还发布了Seed Diffusion,这是一个基于离散状态扩散技术的实验性语言模型,在代码生成任务上实现了极高的推理速度。

为了支撑这些模型的训练,团队还开源了VeOmni,一个PyTorch原生的全模态分布式训练框架。

最近他们还开发了Seed LiveInterpret端到端的同声传译模型,不仅翻译准确率高、延迟低,还能复刻说话人的声音特征。

随着Seed-OSS的开源,国产开源基座模型阵营再添一员强将。

GitHub:

https://github.com/ByteDance-Seed/seed-oss

HuggingFace:

https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd