当前位置：首页 > 科技资讯 > 正文

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破

主机测评网
科技资讯
2025-12-24
499

字节跳动近期突然宣布开源其大型语言模型，首款产品便是拥有高达360亿参数的Seed-OSS-36B。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第1张

Seed-OSS这一命名方式，明显是在呼应OpenAI此前发布的GPT-OSS系列。

与OpenAI的开源策略类似，字节跳动并未直接开源核心商业模型豆包（Doubao），而是基于内部技术打造了一个专门面向开源社区的版本。

字节跳动Seed团队已在Hugging Face和GitHub上正式发布这一模型系列，采用Apache-2.0开源协议，可免费用于学术研究和商业部署。

512K上下文窗口与灵活可调的思考预算机制

Seed-OSS最引人注目的特性之一是其原生支持的512K超长上下文窗口。

目前主流开源模型如DeepSeek V3.1的上下文窗口为128K，而Seed-OSS直接提升了4倍。

这512K上下文是在预训练阶段原生构建的，而非通过后期插值等方法强行扩展。

这意味着在法律文档审查、长篇报告分析、复杂代码库理解等需要处理海量信息的专业场景中，Seed-OSS都能游刃有余。

此外，Seed-OSS引入了“思考预算”（Thinking Budget）机制。

通过设定一个token数量，用户可以控制模型思考的深度。例如，设置512个token的预算，模型在推理过程中会这样工作：复制

好的，让我一步步来解决这个问题。题目说的是… 我已经使用了129个token，还剩383个token可用。使用幂法则，我们可以… 我已经使用了258个token，还剩254个token可用。另外，记住… 我已经耗尽了token预算，现在开始给出答案。

对于简单任务，可设置较小预算以快速响应；对于复杂数学推理或代码生成，则可分配更多预算让其深入思考。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第2张

字节跳动建议使用512的整数倍（如512、1K、2K、4K、8K或16K）作为预算，因为模型在这些区间上经过了大量训练。

模型架构方面，Seed-OSS采用了成熟稳定的设计：

这是一个360亿参数的稠密模型（非MoE），使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。模型共有64层，隐藏层维度5120，词汇表大小155K。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第3张

考虑到合成指令数据可能影响后续研究，字节Seed团队提供了两个版本的基座模型：一个包含合成指令数据以提升性能，另一个不含合成数据以保持纯净，为研究社区提供更多选择。

多项基准测试刷新开源SOTA记录

那么，Seed-OSS的实际表现如何呢？

在知识理解方面，Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分，超过了同等规模Qwen2.5-32B-Base的58.5分。在TriviaQA上更是取得了82.1的高分。

推理能力的BBH基准测试得分87.7，直接刷新了开源模型的记录。数学能力上，GSM8K达到90.8分，MATH为81.7分。

Seed-OSS的代码能力同样出色，HumanEval得分76.8，MBPP达到80.6。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第4张

指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩，仅次于OpenAI的OSS-20B。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第5张

这些成绩是在仅使用12T token训练数据的情况下取得的，而许多同规模模型的训练数据量超过15T。

字节Seed团队的开源生态布局

字节Seed团队成立于2023年，旨在“打造业界最先进的AI基础模型”，研究方向覆盖大语言模型、多模态、AI基础设施等多个前沿领域。

过去一年多时间里，团队已陆续开源多个有影响力的项目，尽管这些多为细分领域模型，而非广受关注的基座语言模型。

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破字节跳动 Seed-OSS-36B 开源大模型 512K上下文第6张

今年5月，他们发布了Seed-Coder，一个8B规模的代码生成模型，其创新在于让LLM自主管理和筛选训练数据，大幅提升了代码生成能力。

紧接着，他们又推出了BAGEL，一个能同时处理文本、图像和视频的统一多模态模型，真正实现了“万物皆可输入输出”。

更早之前，他们还发布了Seed Diffusion，这是一个基于离散状态扩散技术的实验性语言模型，在代码生成任务上实现了极高的推理速度。

为了支撑这些模型的训练，团队还开源了VeOmni，一个PyTorch原生的全模态分布式训练框架。

最近他们还开发了Seed LiveInterpret端到端的同声传译模型，不仅翻译准确率高、延迟低，还能复刻说话人的声音特征。

随着Seed-OSS的开源，国产开源基座模型阵营再添一员强将。

GitHub：

https://github.com/ByteDance-Seed/seed-oss

HuggingFace：

https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

服务器教程性价比服务器云服务器

本文由主机测评网于2025-12-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251212316.html

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破

512K上下文窗口与灵活可调的思考预算机制

多项基准测试刷新开源SOTA记录

字节Seed团队的开源生态布局

Meta AI招聘紧急冻结与团队重组，高薪挖角成本引投资者担忧

Debian数据治理方法指南（从零开始掌握Linux系统中的数据治理与安全管理）

字节跳动开源Seed-OSS-36B大模型：360亿参数与512K上下文的突破

512K上下文窗口与灵活可调的思考预算机制

多项基准测试刷新开源SOTA记录

字节Seed团队的开源生态布局

Meta AI招聘紧急冻结与团队重组，高薪挖角成本引投资者担忧

Debian数据治理方法指南（从零开始掌握Linux系统中的数据治理与安全管理）

相关文章