当前位置:首页 > 系统教程 > 正文

在Ubuntu上安装vLLM:从GPU到CPU的三种方案(小白实战指南)

在Ubuntu上安装vLLM:从GPU到CPU的三种方案(小白实战指南)

在Ubuntu上安装vLLM:从GPU到CPU的三种方案(小白实战指南) vLLM安装教程 Ubuntu GPU推理 CPU模式部署 异构计算 第1张

1. 引言

vLLM 是一个高性能的大语言模型推理和服务框架,最初针对GPU设计,但社区已扩展出CPU运行方案。本文将为Ubuntu用户提供三种详细的安装方式,涵盖纯GPU加速、纯CPU部署以及异构计算,帮助你在不同硬件条件下快速上手。无论你是AI新手还是资深开发者,都能找到适合自己的路径。文章中我们将围绕 vLLM安装教程Ubuntu GPU推理CPU模式部署异构计算 这四个关键词展开说明。

2. 准备工作

- Ubuntu 20.04 或更高版本 - Python 3.8+ 和 pip - 可选:NVIDIA GPU + CUDA 11.8+(用于方案一和方案三) - 至少8GB内存(CPU模式建议16GB+) - 安装基础依赖:sudo apt update && sudo apt install build-essential cmake

3. 方案一:GPU专属安装(CUDA加速)

此方案适合拥有NVIDIA GPU的用户,能最大化利用 Ubuntu GPU推理 性能。

  1. 安装CUDA工具包: 从NVIDIA官网下载CUDA 11.8+并安装,或者使用 sudo apt install nvidia-cuda-toolkit(推荐官网安装以获取最新版本)。
  2. 创建虚拟环境: python3 -m venv vllm_env && source vllm_env/bin/activate
  3. 安装vLLM: pip install vllm 会自动编译CUDA内核。
  4. 验证: 运行 python -c "from vllm import LLM; llm = LLM("facebook/opt-125m"); print(llm.generate("Hello"))",若输出文本则成功。

4. 方案二:纯CPU模式(无需GPU)

vLLM官方并未直接提供CPU wheel,但可以通过源码编译启用CPU后端,适合没有GPU但想体验 CPU模式部署 的用户。

  1. 安装编译依赖: sudo apt install libopenblas-dev libomp-dev
  2. 克隆vLLM源码: git clone https://github.com/vllm-project/vllm.git && cd vllm
  3. 设置环境变量启用CPU: export VLLM_TARGET_DEVICE=cpu
  4. 编译安装: pip install -e . 这个过程会编译CPU版本,耗时较长。
  5. 测试: 使用同样的小模型,但注意CPU模式需要更多内存,可能较慢。

5. 方案三:GPU+CPU异构计算(优化显存)

当GPU显存不足时,可以利用 异构计算 将部分层offload到CPU。这需要vLLM 0.3.0以上版本,并设置相关参数。

  1. 确保已安装GPU版本vLLM(同方案一)。
  2. 设置offload参数: 在代码中通过 LLM(model="facebook/opt-1.3b", tensor_parallel_size=1, cpu_offload_gb=4) 指定CPU offload内存。
  3. 启动服务: 也可通过 --cpu-offload-gb 参数在 vllm serve 中启用。
  4. 监控资源: 使用 nvidia-smihtop 观察GPU/CPU利用率。

6. 常见问题与总结

- Q: CPU模式运行报错“找不到CUDA”? A: 确保编译前设置了 VLLM_TARGET_DEVICE=cpu。 - Q: 异构计算性能如何? A: CPU部分会成为瓶颈,适合显存不足时应急。 - 本文详细介绍了三种安装方案,从纯GPU到纯CPU再到混合,覆盖了 vLLM安装教程 的所有常见场景。无论你是在做 Ubuntu GPU推理,还是尝试 CPU模式部署,或是探索 异构计算,都能按需选择。

—— 祝你在Ubuntu上玩转vLLM! ——