当前位置：首页 > 系统教程 > 正文

深度学习训练必看：Linux虚拟机环境下代码运行指南（从零开始搭建与优化）

主机测评网
系统教程
2026-03-05
433

深度学习训练必看：Linux虚拟机环境下代码运行指南（从零开始搭建与优化）

一、引言：为什么选择Linux虚拟机进行深度学习训练？

深度学习训练通常需要强大的计算资源，尤其是GPU加速。然而，对于初学者或者需要在不同环境中测试代码的开发者来说，使用Linux虚拟机是一个灵活且隔离的选择。通过虚拟机，你可以在Windows或macOS上运行Linux系统，无需重新安装双系统，同时可以快速创建快照，方便环境恢复。尽管虚拟机在GPU直通方面存在限制，但通过适当的配置，你仍然可以进行小规模训练和代码调试。本文将手把手教你如何在Linux虚拟机中搭建深度学习环境并运行代码，涵盖从安装到优化的全流程，特别关注GPU加速的可能性。

二、准备工作：虚拟机软件与Linux镜像

首先，你需要安装虚拟机软件。推荐使用开源的VirtualBox或功能更强大的VMware Workstation Player（免费版）。本文以VirtualBox为例。下载并安装VirtualBox后，前往Ubuntu官网下载最新的LTS版本镜像（如ubuntu-20.04.6-desktop-amd64.iso）。Ubuntu是深度学习领域最流行的Linux发行版，拥有丰富的社区支持和软件包。

接下来，创建虚拟机：打开VirtualBox，点击“新建”，输入名称（如“Ubuntu深度学习”），选择类型为Linux，版本为Ubuntu (64-bit)。内存分配建议至少8GB，如果宿主机内存充足，可以分配16GB。硬盘选择“现在创建虚拟硬盘”，文件类型选VDI，存储选动态分配，大小建议50GB以上，因为深度学习框架和数据集往往占用较大空间。

三、安装Linux系统

启动虚拟机，选择下载的ISO文件作为启动盘，开始安装Ubuntu。按照向导选择语言、键盘布局，在“安装类型”中选择“擦除磁盘并安装Ubuntu”（这是虚拟硬盘，不会影响宿主机），然后设置用户名和密码。等待安装完成，重启后即可进入Ubuntu桌面。

为了后续操作方便，建议先安装增强功能（Guest Additions），它可以提供更好的显示分辨率、共享剪贴板和文件拖拽功能。在VirtualBox菜单栏点击“设备”->“安装增强功能”，然后在Ubuntu终端中运行相应命令。

四、安装深度学习必备软件

打开终端（Ctrl+Alt+T），首先更新软件源：sudo apt update && sudo apt upgrade -y。然后安装Python和pip：sudo apt install python3 python3-pip -y。

如果你希望使用GPU加速，需要满足以下条件：宿主机拥有NVIDIA显卡，且虚拟机软件支持PCI直通（如VMware Workstation Pro或特定配置的VirtualBox）。这通常需要硬件和软件层面的复杂设置。对于大多数初学者，建议先在CPU模式下运行，待熟悉流程后再尝试GPU直通。如果无法使用GPU，你可以使用云GPU实例，或者考虑使用WSL2（Windows Subsystem for Linux 2），它对GPU支持更好。

接下来安装深度学习框架，以PyTorch为例：pip3 install torch torchvision torchaudio。如果不需要GPU版本，可以安装CPU版：pip3 install torch --index-url https://download.pytorch.org/whl/cpu。TensorFlow的安装类似：pip3 install tensorflow-cpu。

为了管理项目依赖，建议创建虚拟环境：python3 -m venv myenv，然后激活：source myenv/bin/activate。在虚拟环境中安装框架，可以避免版本冲突。

五、编写并运行第一个深度学习训练脚本

创建一个Python文件，例如train.py，使用PyTorch训练一个简单的线性模型。以下是一个示例代码：

    import torchimport torch.nn as nnimport torch.optim as optim# 生成随机数据x = torch.randn(100, 1)y = 3 * x + 2 + 0.1 * torch.randn(100, 1)# 定义模型model = nn.Linear(1, 1)criterion = nn.MSELoss()optimizer = optim.SGD(model.parameters(), lr=0.01)# 训练for epoch in range(100):    optimizer.zero_grad()    output = model(x)    loss = criterion(output, y)    loss.backward()    optimizer.step()    if (epoch+1) % 10 == 0:        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")print("训练完成！")

运行脚本：python train.py。如果一切正常，你会看到损失逐渐下降。这表明你的深度学习环境已成功搭建！

六、性能优化与GPU加速

如果你希望在虚拟机中实现GPU加速，可以考虑以下方案：

使用支持GPU直通的虚拟机：如VMware Workstation Pro，在虚拟机设置中添加PCI设备，选择NVIDIA显卡。这需要主板支持VT-d和IOMMU，并且需要为虚拟机安装NVIDIA驱动和CUDA。具体步骤较为繁琐，但网上有大量教程。
使用WSL2替代虚拟机：WSL2是Windows下的轻量级Linux环境，支持原生GPU加速，非常适合深度学习开发。
云GPU实例：如果本地硬件不支持，可以考虑使用云服务商的GPU实例，如阿里云、AWS等，在云端进行训练。

即使无法使用GPU，你也可以通过增加虚拟机的CPU核心数和内存来提升CPU训练速度。在虚拟机设置中，将处理器数量调整为2以上，内存设置到8GB以上。同时，确保虚拟硬盘使用SSD存储，以提高数据读取速度。