当前位置：首页 > 系统教程 > 正文

在Ubuntu上安装vLLM：从GPU到CPU的三种方案（小白实战指南）

主机测评网
系统教程
2026-02-15
438

在Ubuntu上安装vLLM：从GPU到CPU的三种方案（小白实战指南）

1. 引言

vLLM 是一个高性能的大语言模型推理和服务框架，最初针对GPU设计，但社区已扩展出CPU运行方案。本文将为Ubuntu用户提供三种详细的安装方式，涵盖纯GPU加速、纯CPU部署以及异构计算，帮助你在不同硬件条件下快速上手。无论你是AI新手还是资深开发者，都能找到适合自己的路径。文章中我们将围绕 vLLM安装教程、Ubuntu GPU推理、CPU模式部署和异构计算这四个关键词展开说明。

2. 准备工作

- Ubuntu 20.04 或更高版本 - Python 3.8+ 和 pip - 可选：NVIDIA GPU + CUDA 11.8+（用于方案一和方案三） - 至少8GB内存（CPU模式建议16GB+） - 安装基础依赖：sudo apt update && sudo apt install build-essential cmake

3. 方案一：GPU专属安装（CUDA加速）

此方案适合拥有NVIDIA GPU的用户，能最大化利用 Ubuntu GPU推理性能。

安装CUDA工具包： 从NVIDIA官网下载CUDA 11.8+并安装，或者使用 sudo apt install nvidia-cuda-toolkit（推荐官网安装以获取最新版本）。
创建虚拟环境： python3 -m venv vllm_env && source vllm_env/bin/activate
安装vLLM： pip install vllm 会自动编译CUDA内核。
验证： 运行 python -c "from vllm import LLM; llm = LLM("facebook/opt-125m"); print(llm.generate("Hello"))"，若输出文本则成功。

4. 方案二：纯CPU模式（无需GPU）

vLLM官方并未直接提供CPU wheel，但可以通过源码编译启用CPU后端，适合没有GPU但想体验 CPU模式部署的用户。

安装编译依赖： sudo apt install libopenblas-dev libomp-dev
克隆vLLM源码： git clone https://github.com/vllm-project/vllm.git && cd vllm
设置环境变量启用CPU： export VLLM_TARGET_DEVICE=cpu
编译安装： pip install -e . 这个过程会编译CPU版本，耗时较长。
测试： 使用同样的小模型，但注意CPU模式需要更多内存，可能较慢。

5. 方案三：GPU+CPU异构计算（优化显存）

当GPU显存不足时，可以利用异构计算将部分层offload到CPU。这需要vLLM 0.3.0以上版本，并设置相关参数。

确保已安装GPU版本vLLM（同方案一）。
设置offload参数： 在代码中通过 LLM(model="facebook/opt-1.3b", tensor_parallel_size=1, cpu_offload_gb=4) 指定CPU offload内存。
启动服务： 也可通过 --cpu-offload-gb 参数在 vllm serve 中启用。
监控资源： 使用 nvidia-smi 和 htop 观察GPU/CPU利用率。

6. 常见问题与总结

- Q： CPU模式运行报错“找不到CUDA”？ A：确保编译前设置了 VLLM_TARGET_DEVICE=cpu。 - Q：异构计算性能如何？ A： CPU部分会成为瓶颈，适合显存不足时应急。 - 本文详细介绍了三种安装方案，从纯GPU到纯CPU再到混合，覆盖了 vLLM安装教程的所有常见场景。无论你是在做 Ubuntu GPU推理，还是尝试 CPU模式部署，或是探索异构计算，都能按需选择。

—— 祝你在Ubuntu上玩转vLLM！ ——