DeepSeek-V3.1已经正式发布,作为业界首款采用“混合推理”技术的模型,它开启了智能体新时代的序幕。新模型总计拥有671B参数,在编码能力上全面超越DeepSeek-R1和Claude 4 Opus,荣登编程开源排行榜首位。
官方宣布,DeepSeek正式推出DeepSeek-V3.1,这被视为迈向智能体时代的关键一步。
新版V3.1引入了创新的“混合推理”机制,一个模型具备两种模式:思考模式与非思考模式,能够根据任务需求自主切换。
与DeepSeek-R1-0528相比,DeepSeek-V3.1的思考模式在推理速度上表现更快。
最重要的是,V3.1具备了卓越的智能体能力,无论是工具使用还是多步骤复杂任务,都能轻松应对。
在软件工程基准测试中,DeepSeek-V3.1在所有方面都超越了V3-0324和R1-0528。
在人类水平考试HLE中,V3.1获得了29.8的高分,同时在数学、知识问答和编程等任务中,全面超越了推理模型R1。
经过CoT压缩训练后,V3.1-Think模式在输出token上减少了20%至50%,与R1-0528性能相当。
在Hugging Face平台上,开源了两款模型:V3.1 Base和V3.1。前者在V3基础上进行了8400亿token的持续预训练,并扩展了上下文支持能力。
项目地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Basehttps://huggingface.co/deepseek-ai/DeepSeek-V3.1
总体而言,DeepSeek-V3.1此次更新的核心亮点包括:
参数规模达到671B,激活参数为37B,上下文长度支持128k。
混合推理模式:单一模型即可支持推理和非推理两种模式。
更强大的工具调用能力:在工具使用和智能体任务方面有显著提升,多步推理能力增强,能处理复杂搜索。
更高的推理效率:回答质量与DeepSeek-R1-0528相当,但思考效率大幅提升,响应速度更快。
全面基准测试表现:在各项测试中全面超越DeepSeek-R1-0528和DeepSeek-V3-0324。
在API方面,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式,均支持128k上下文。
从9月5日开始,将采用新的API定价策略。
继OpenAI发布gpt-oss之后,DeepSeek此次推出了强有力的回应。
HF模型卡中提供了DeepSeek新模型技术的详细解读。
DeepSeek-V3.1基于DeepSeek-V3.1-Base通过后训练优化完成,而V3.1-Base则是在V3模型基础上训练而来。
具体而言,它采用“两阶段长上下文扩展策略”构建,遵循了原始V3论文中的方法。
研究团队进一步扩展了数据集,收集了更多长文档,并大幅增加了两个训练阶段的规模。
32k扩展阶段规模增加了10倍,达到6300亿Token,而128k扩展阶段增加了3.3倍,达到2090亿Token。
此外,DeepSeek-V3.1采用UE8M0 FP8缩放数据格式进行训练,确保与微尺度数据格式的兼容性。
在通用能力基准测试中,开启思考模式的V3.1在MMLU和GPQA上取得了优异成绩。
在数学领域,V3.1同样刷新了最高纪录,创下了新的SOTA分数。
如上所述,V3.1是迈向智能体时代的第一步。它支持多种Code Agent框架,开发者可自行搭建智能体。
在编码测试中,DeepSeek-V3.1的思考模式在Aider编码测试中获得了76.3%的高分,远超Claude 4 Opus和Gemini 2.5 Pro(0325)。
在编码智能体测试中,DeepSeek-V3.1的非思考模式性能全面碾压R1和V3。
此外,DeepSeek-V3.1支持搜索智能体,在推理模式下可使用。
当遇到需要外部信息或最新信息的复杂问题时,V3.1可以通过多轮工具调用流程,利用用户提供的搜索工具来完成。
在基准测试中,尤其是在BrowseComp上,V3.1的表现彻底超越了R1。
第三方Artificial Analysis基准同样验证了DeepSeek-V3.1的强大实力,仅次于gpt-oss。
在推理效率方面,V3.1与OpenAI模型相当。
目前来看,DeepSeek-V3.1稳固占据了编程开源第一的位置。
参考资料:
https://x.com/karminski3/status/1958429843558945015
https://x.com/deepseek_ai/status/1958417062008918312
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251212379.html