拥有2000亿参数规模、售价约三万元人民币、搭载128GB内存,这款被誉为「全球最小超算」的设备,能否真正实现桌面级大语言模型的高效运行?NVIDIA DGX Spark的正式发售,目标是为科研人员、数据科学家及学生提供高性能桌面AI计算能力,推动AI模型的开发与创新。
此前,黄仁勋将这款超算赠予马斯克和奥特曼,标志着其从CES亮相到实际落地。如今,它通过华硕、联想、戴尔等品牌面向市场发售,售价3999美元,链接为:https://marketplace.nvidia.com/en-us/developer/dgx-spark/。普通用户可能设想其用于本地大模型对话、无限制内容生成或私人助理训练,但实际能力如何?对比租赁A100显卡每小时7元的成本,3万元购买DGX Spark是否划算?我们整合了网络评测,提前解析其价值。
官网显示,DGX Spark提供多种品牌版本,旨在赋能AI开发。然而,用户更关心其能否胜任本地任务,如安全聊天、创意生成或个性化助理。
部分显卡租赁平台显示A100每小时租金7元,DGX Spark的购置成本相当于约4000小时租赁。是否值得投资?我们深入评测数据一探究竟。
1. 性能定位:轻量模型处理出色,可稳定运行1200亿参数大模型,总体性能介于RTX 5070与RTX 5070 Ti之间。
2. 主要短板:内存带宽仅273 GB/s,形成瓶颈。算力充足但数据传输迟缓,类似思维敏捷却表达卡顿。
3. 创新方案:通过连接Mac Studio M3 Ultra实现“辅佐”,DGX Spark负责快速计算,Mac Studio处理流畅输出,缓解带宽限制。
4. 生态支持:官方提供超20种开箱即用方案,涵盖视频生成、多智能体助手等,构建完整AI工具集。
直接查看基准数据。
基于ChatGPT制作的图表显示,DGX Spark在每秒处理填充和解码的平均token数量上,落后于RTX 5080。对比Mac Mini M4 Pro,DGX Spark在Prefill阶段优势明显,但Decode阶段差距缩小。Mac Mini M4 Pro运行DeepSeek R1开源模型时平均TPS达17.8,而DGX Spark为33.1。
AI生成答案过程分为两个关键步骤:
1. Prefill(预填充阶段)
模型快速读取并理解用户输入提示词,此阶段速度决定首字响应时间(TTFT)。TTFT越短,用户体验越流畅。
Apple宣传M5芯片时强调首词元响应速度。
2. Decode(解码阶段)
模型逐词元输出答案,此阶段速度由TPS(每秒生成词元数)衡量。TPS越高,答案显示越快。
💡 提示:TPS代表Token Per Second,即AI工作效率。Prefill阶段TPS反映理解速度,Decode阶段TPS反映生成速度。
因此,DGX Spark回答时首字出现迅速,但后续输出缓慢。对比Mac Mini M4 Pro(24GB统一内存版售价10999元),性价比需权衡。
这些测试由LMSYS团队通过SGLang项目和Ollama框架完成,使用不同设备运行多个开源大语言模型。
SGLang为高性能推理框架,FP8、MXFP4等指模型量化格式,用于压缩存储。测试涵盖1200亿参数大模型及80亿轻量模型,批次大小和框架差异影响DGX Spark表现。例如,批次大小为1时,DGX Spark解码TPS仅20,批次设为32后升至370。批次越大,GPU负载越高。
DGX Spark基于GB10 Grace Blackwell芯片架构,提供1 PFLOP稀疏FP4张量性能,定位在RTX 5070与RTX 5070 Ti之间。
开头图表平均了所有模型结果,未能全面反映性能。综合来看,DGX Spark优势包括:
但短板显著——带宽限制。Prefill阶段依赖算力,Decode阶段依赖带宽。DGX Spark算力快但带宽慢,数据通道如细水管:LPDDR5X内存带宽仅273 GB/s,而RTX 5090的GDDR7内存带宽达1800 GB/s,差距明显。
LMSYS评测详情可通过Kimi智能体生成可视化报告,原始数据预览链接:https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb。
极客团队已找到提升DGX Spark算力利用率的方法,即利用Mac Studio M3 Ultra的819 GB/s带宽,将大模型推理速度整体提升2.8倍。
EXO Lab在早期访问中,采用PD分离策略:DGX Spark负责Prefill阶段,Mac Studio负责Decode阶段。
黄色代表Prefill阶段决定TTFT,蓝色代表Decode阶段决定TPS。EXO Lab将Decode移交Mac Studio。
关键挑战在于将DGX Spark生成的KV缓存传输至Mac Studio。EXO采用流水线式分层计算:DGX Spark处理第一层Prefill时,KV缓存即开始传输,同时进行第二层Prefill,实现计算与传输重叠。
当Prefill完成,Mac Studio已获完整KV缓存,立即开始Decode。此方案虽提速3倍,但成本增至约10万元(两台DGX Spark加一台Mac Studio M3 Ultra),用于本地大模型可能过于昂贵。
除带宽外,DGX Spark的128GB统一内存、GB10架构及桌面设计拓展了潜在用途。博主实测展示了多种玩法。
博主BijianBowen利用ComfyUI框架和阿里Wan 2.2 14B文本到视频模型,根据官方Playbooks配置视频生成项目。过程中GPU温度达60-70摄氏度,但设备运行安静,无风扇噪音。
视频来源:https://youtu.be/Pww8rIzr1pg。多数博主反馈DGX Spark噪音低,拆解工整。
除ComfyUI,本地大模型工具LM Studio也宣布支持DGX Spark。
工具调用与多智能体机器人搭建
Level1Techs利用DGX Spark并行运行多个LLMs和VLMs,实现智能体交互。凭借128GB内存,可同时加载1200亿参数GPT-OSS、67亿DeepSeek-Coder、Qwen3-Embedding-4B和Qwen2.5-VL:7B-Instruct模型处理不同任务。
视频来源:https://youtu.be/Lqd2EuJwOuw。此为Nvidia官方指南之一,官网提供超20种方案,包括预计时间和详细步骤。
链接:https://build.nvidia.com/spark。应用示例:将非结构化文本转换为结构化知识图谱。
以及视频搜索与摘要生成。
Reddit用户开启AMA活动,分享测试结果,确认AI性能对标RTX 5070,并探讨运行nanochat等项目。
链接:https://www.reddit.com/r/LocalLLaMA/comments/1o7gpr8/got_the_dgx_spark_ask_me_anything/。未来将有更多基准测试和指南更新。
DGX Spark象征AI时代的桌面计算实验,挑战本地AI的想象边界。核心问题不仅是其能否运行,更是当人人拥有超算时,我们该如何利用它释放创造力。
本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120867.html