2000亿参数、3万元人民币、128GB内存——这台被称为“全球最小超算”的NVIDIA DGX Spark,究竟能否在桌面上流畅运行大模型?让我们通过实测数据一探究竟。
不久前,黄仁勋亲自将这台超算送到马斯克手中,随后又造访OpenAI总部赠予奥特曼。从CES亮相到如今正式交付,这款个人超算终于走进大众视野。
官网显示售价3999美元,并提供华硕、联想、戴尔等七个品牌版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/
NVIDIA DGX Spark作为个人AI超级计算机,主要面向科研人员、数据科学家和学生群体,为其提供高性能桌面级AI计算能力,助力AI模型开发与创新。
尽管官方定位高端,但普通用户最关心的玩法仍集中在:
部分显卡租赁平台显示A100售价约7元/小时。
实际上,DGX Spark搭载的GB10 Grace Blackwell超级芯片,有望拓展更多应用场景。但具体能做什么?表现如何?3万元的售价可租用4000小时A100,你还会选择把它放在桌上跑大模型吗?
我们汇总了目前网络上关于DGX Spark的多篇详细评测,在亲自上手前,先带大家看看这台设备是否值3万元。
1. 性能定位:轻量模型表现出色,1200亿参数大模型也能稳定运行。综合性能介于RTX 5070与RTX 5070 Ti之间。
2. 最大短板:273GB/s内存带宽成瓶颈。算力充足但数据传输延迟,如同思维敏捷但口齿不清的对话者。
3. 另类解法:搭配一台Mac Studio M3 Ultra协同工作。DGX Spark负责高速推理,Mac Studio负责流畅输出,巧妙绕过带宽限制。
4. 生态丰富:官方提供超20种即用型玩法,涵盖视频生成、多智能体助手等,AI全家桶一站式配齐。
直接看数据。
每秒处理填充和解码的平均token数量,DGX Spark仅次于RTX 5080,图表由ChatGPT生成。
DGX Spark相比Mac Mini M4 Pro优势明显,尤其在Prefill阶段。但在Decode阶段,优势缩小。Mac Mini M4 Pro在DeepSeek R1开源模型上的平均TPS为17.8,而DGX Spark也仅33.1。
当我们在AI对话框输入问题,模型生成答案的过程分为两步:
1. Prefill(预填充/阅读理解)
AI快速阅读并理解输入的每个字(提示词)。该阶段处理速度越快,首字响应时间(TTFT)越短。
Apple宣传M5芯片时使用首字响应速度指标。
2. Decode(解码/生成答案)
AI逐字输出答案,决定TPS(每秒生成词元数)。该数值越高,答案显示越快。
💡 Tips:什么是TPS?
TPS即Token Per Second,可理解为AI的工作效率或“打字速度”。Prefill阶段的TPS代表理解问题的速度,Decode阶段的TPS代表生成答案的速度。
因此,DGX Spark回答时首字响应快,但后续输出缓慢。要知道,Mac Mini M4 Pro(24GB统一内存)售价仅10999元。
原因何在?这项测试由大模型竞技场团队LMSYS,在SGLang和Ollama框架上,选取图中六款设备运行多个开源大语言模型完成。
SGLang由LMSYS团队开发,FP8、MXFP4、q4_K_M、q8_0为不同量化格式。
测试涵盖1200亿参数本地模型和80亿参数小型模型,Batch Size及SGLang与Ollama框架的差异,均会影响DGX Spark表现。
例如,评测团队指出,DGX Spark在Batch Size为1时,每秒解码词元仅20个;而当Batch Size设为32,每秒解码词元飙升至370。通常,Batch Size越大,对GPU性能要求越高。
DGX Spark的AI能力基于GB10 Grace Blackwell架构及1 PFLOP稀疏FP4张量性能,定位介于RTX 5070与RTX 5070 Ti之间。
因此,开头那张综合结果图并未全面展示DGX Spark的能力,因为它平均了所有模型测试结果。不同Batch Size和模型参数量下,性能表现各异。
综上,DGX Spark优势在于:
但短板同样致命——带宽。
Prefill阶段拼算力(思考速度),Decode阶段拼带宽(表达速度)。DGX Spark的问题在于:算力充足,带宽不足。其数据通道如同细水管:
这正是DGX Spark在Decode阶段表现平平的根本原因。LMSYS已将详细评测结果公开于Google文档,我们通过Kimi智能体生成可视化报告,原始数据预览可点击Kimi预览报告下载。
https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb
带宽虽是短板,但已有极客团队找到榨干DGX Spark算力的方法:搭配一台带宽更快的Mac Studio M3 Ultra(819 GB/s),可将大模型推理速度整体提升2.8倍。
获得两台DGX Spark早期访问权限的EXO Lab,将Prefill和Decode阶段分别交给DGX Spark和Mac Studio,即PD分离。
如前所述,黄色代表Prefill阶段(决定TTFT),蓝色代表Decode阶段(决定TPS)。
EXO Lab将Decode交给Mac Studio。但PD分离需解决KV缓存传输问题,若传输延迟过高,可能抵消性能增益。
EXO的解决方案是流水线式分层计算与传输:DGX Spark处理第一层Prefill时,生成的KV缓存立即传输给Mac Studio,同时继续第二层Prefill。
这种分层流水线使计算与数据传输完全重叠。Prefill完成后,Mac Studio已获得完整KV缓存,可立即开始解码。
这套方案虽将速度提升3倍,但成本也翻三番——两台DGX Spark加一台Mac Studio M3 Ultra总价近10万元,若仅用于本地大模型,未免大材小用。
273 GB/s带宽并非DGX Spark的全部。128GB统一内存、数据中心级GB10架构、1 Petaflop算力及桌面级设计,为其拓展了丰富应用场景。我们在YouTube上汇总了多位博主的开箱体验,看看这款优缺点鲜明的设备能做什么。
文本模型多已免费,但视频生成常需会员或积分。博主BijianBowen借助ComfyUI框架和阿里的Wan 2.2 14B文生视频模型,按DGX Spark官方Playbooks配置项目。
NVIDIA DGX Spark – 非赞助评测(对比Strix Halo、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg
生成过程中,GPU温度达60-70℃,但噪音极低,风扇声几乎不可闻。
多数博主提到DGX Spark确实安静,设备拆解工整,图片来自storagereview.com。
除ComfyUI外,LM Studio也发布博客支持DGX Spark,提供本地大模型运行指南。
工具调用:搭建多智能体聊天机器人
Level1Techs展示了用DGX Spark并行运行多个LLM和VLM,实现智能体交互。
深入探讨英伟达DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw
借助128GB大内存,他们选择1200亿参数GPT-OSS、67亿DeepSeek-Coder、Qwen3-Embedding-4B及Qwen2.5-VL:7B-Instruct四个模型协同处理不同任务。该项目亦为NVIDIA官方指南之一,官网提供超20种玩法,每种均附预计耗时和详细步骤。
https://build.nvidia.com/spark
例如搭建文本到知识图谱系统,将非结构化文本转为结构化知识节点。
视频搜索与摘要总结。
Reddit上已有用户开启AMA活动,分享测试结果,同样确认AI能力对标RTX 5070。有人询问能否运行Karpathy新推出的nanochat项目。
https://www.reddit.com/r/LocalLLaMA/comments/1o7gpr8/got_the_dgx_spark_ask_me_anything/
未来将有更多DGX Spark基准测试和全面指南更新,APPSO的DGX Spark评测也在快马加鞭赶来。
DGX Spark的存在,更像是AI狂飙时代的一次实验——将数据中心级算力塞进桌面,试探我们对本地AI的幻想边界。真正的问题不仅是DGX Spark能否运行,更是当每个人都拥有一台超算时,我们能拿它做什么。
本文由主机测评网于2026-02-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225869.html