vLLM 是一个高性能的大语言模型推理和服务框架,最初针对GPU设计,但社区已扩展出CPU运行方案。本文将为Ubuntu用户提供三种详细的安装方式,涵盖纯GPU加速、纯CPU部署以及异构计算,帮助你在不同硬件条件下快速上手。无论你是AI新手还是资深开发者,都能找到适合自己的路径。文章中我们将围绕 vLLM安装教程、Ubuntu GPU推理、CPU模式部署 和 异构计算 这四个关键词展开说明。
- Ubuntu 20.04 或更高版本 - Python 3.8+ 和 pip - 可选:NVIDIA GPU + CUDA 11.8+(用于方案一和方案三) - 至少8GB内存(CPU模式建议16GB+) - 安装基础依赖:sudo apt update && sudo apt install build-essential cmake
此方案适合拥有NVIDIA GPU的用户,能最大化利用 Ubuntu GPU推理 性能。
sudo apt install nvidia-cuda-toolkit(推荐官网安装以获取最新版本)。python3 -m venv vllm_env && source vllm_env/bin/activatepip install vllm 会自动编译CUDA内核。python -c "from vllm import LLM; llm = LLM("facebook/opt-125m"); print(llm.generate("Hello"))",若输出文本则成功。vLLM官方并未直接提供CPU wheel,但可以通过源码编译启用CPU后端,适合没有GPU但想体验 CPU模式部署 的用户。
sudo apt install libopenblas-dev libomp-devgit clone https://github.com/vllm-project/vllm.git && cd vllmexport VLLM_TARGET_DEVICE=cpupip install -e . 这个过程会编译CPU版本,耗时较长。当GPU显存不足时,可以利用 异构计算 将部分层offload到CPU。这需要vLLM 0.3.0以上版本,并设置相关参数。
LLM(model="facebook/opt-1.3b", tensor_parallel_size=1, cpu_offload_gb=4) 指定CPU offload内存。--cpu-offload-gb 参数在 vllm serve 中启用。nvidia-smi 和 htop 观察GPU/CPU利用率。 - Q: CPU模式运行报错“找不到CUDA”? A: 确保编译前设置了 VLLM_TARGET_DEVICE=cpu。 - Q: 异构计算性能如何? A: CPU部分会成为瓶颈,适合显存不足时应急。 - 本文详细介绍了三种安装方案,从纯GPU到纯CPU再到混合,覆盖了 vLLM安装教程 的所有常见场景。无论你是在做 Ubuntu GPU推理,还是尝试 CPU模式部署,或是探索 异构计算,都能按需选择。
—— 祝你在Ubuntu上玩转vLLM! ——
本文由主机测评网于2026-02-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225357.html