当前位置:首页 > 系统教程 > 正文

Ubuntu 22.04 Tesla V100双卡拓展坞安装NVIDIA驱动与CUDA 12.8完全指南(从零开始轻松配置AI深度学习环境)

Ubuntu 22.04 Tesla V100双卡拓展坞安装NVIDIA驱动与CUDA 12.8完全指南(从零开始轻松配置AI深度学习环境)

本文将手把手教你如何在 Ubuntu 22.04 系统下,通过拓展坞连接双路 Tesla V100 显卡,并完成 NVIDIA驱动安装CUDA 12.8配置。无论你是AI初学者还是资深开发者,都能轻松搭建强大的深度学习工作站。

Ubuntu 22.04 Tesla V100双卡拓展坞安装NVIDIA驱动与CUDA 12.8完全指南(从零开始轻松配置AI深度学习环境)  V100 NVIDIA驱动安装 CUDA 12.8配置 第1张

一、准备工作:硬件检查与系统更新

确保你的硬件环境满足要求:Tesla V100 双卡、供电充足的拓展坞(建议1200W以上电源)、PCIe 3.0 x16插槽、稳定的网络连接。软件方面,我们使用 Ubuntu 22.04 LTS 系统。

    # 检查系统版本lsb_release -a# 更新软件包列表并升级系统sudo apt update && sudo apt upgrade -y  

二、NVIDIA驱动安装(关键步骤)

NVIDIA驱动安装 是GPU工作的基础。首先必须禁用系统默认的开源驱动nouveau:

    sudo bash -c "echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau.conf"sudo bash -c "echo "options nouveau modeset=0" >> /etc/modprobe.d/blacklist-nouveau.conf"sudo update-initramfs -u# 重启系统sudo reboot  

重启后,从 NVIDIA官网 下载适用于 Tesla V100 的最新驱动(推荐使用runfile安装,版本不低于550,以支持CUDA 12.8)。假设下载到 ~/NVIDIA-Linux-x86_64-550.120.run

    chmod +x ~/NVIDIA-Linux-x86_64-550.120.runsudo ~/NVIDIA-Linux-x86_64-550.120.run  

安装过程中接受协议,并选择“Install and overwrite existing files”(如有)。完成后验证:

    nvidia-smi  

如果显示两张 Tesla V100 以及驱动版本,说明驱动安装成功。

三、CUDA 12.8配置

CUDA 12.8配置 为深度学习框架(如PyTorch、TensorFlow)提供并行计算支持。访问 NVIDIA CUDA Toolkit 12.8 存档,选择 Linux → x86_64 → Ubuntu → 22.04 → runfile (local) 下载。

    wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.runsudo sh cuda_12.8.0_570.86.10_linux.run  

安装时取消勾选“Driver”(因为我们已经安装了驱动),其余保持默认。安装完成后,配置环境变量:

    echo "export PATH=/usr/local/cuda-12.8/bin:$PATH" >> ~/.bashrcecho "export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH" >> ~/.bashrcsource ~/.bashrc  

验证CUDA版本:

    nvcc --version  

四、双卡验证与性能优化

再次运行 nvidia-smi 确认两张卡都处于在线状态。为提升双卡效率,开启持久模式:

    sudo nvidia-smi -pm 1  

使用CUDA自带工具测试双卡带宽:

    cd /usr/local/cuda-12.8/extras/demo_suite./bandwidthTest --device=all  

如果输出显示两张卡的带宽数据,说明双卡通信正常。

五、拓展坞使用注意事项

  • 供电:Tesla V100 双卡功耗较高,务必使用高品质电源,并确保拓展坞独立供电。
  • 散热:显卡被动散热需机箱风道良好,建议加装风扇辅助散热。
  • PCIe带宽:拓展坞通过雷电或PCIe线缆连接,可能损失部分带宽,但对深度学习训练影响较小。

至此,你已经在 Ubuntu 22.04 上成功完成了双路 Tesla V100NVIDIA驱动安装CUDA 12.8配置!现在可以尽情享受双卡带来的AI加速体验了。