当前位置:首页 > 系统教程 > 正文

深度学习环境配置与故障排查指令总表

深度学习环境配置与故障排查指令总表

Linux+tmux+conda+GPU+网络/系统检查指令详解

深度学习环境配置与故障排查指令总表 深度学习环境配置 Linux命令大全 GPU监控命令 tmux使用教程 第1张

对于深度学习实践者来说,熟练掌握Linux操作、使用tmux管理长时间任务、通过conda隔离环境、监控GPU状态以及诊断网络和系统问题,是提高工作效率的必备技能。本文汇总了最常用、最实用的指令,并附带详细解释,即使是刚入门的小白也能轻松上手。以下内容涵盖了深度学习环境配置Linux命令大全GPU监控命令tmux使用教程等核心主题。

一、Linux基础指令(小白必学)

pwd # 显示当前目录ls -lah # 列出当前目录所有文件(包括隐藏文件)cd ~/project # 进入家目录下的project文件夹cp -r src/ dest/ # 递归复制文件夹mv file1 file2 # 移动或重命名文件rm -rf temp/ # 强制删除文件夹(谨慎使用)chmod +x script.sh # 给脚本添加执行权限ps aux | grep python # 查看Python进程kill -9 PID # 强制终止进程top / htop # 动态查看系统进程及资源占用

二、tmux终端复用器(防止训练中断)

tmux new -s mysession # 创建名为mysession的会话tmux ls # 列出所有会话tmux attach -t mysession # 重新连接会话tmux kill-session -t mysession # 删除会话# 在tmux内部快捷键:Ctrl+b % # 垂直分割窗口Ctrl+b " # 水平分割窗口Ctrl+b d # 脱离会话(训练仍在后台运行)Ctrl+b ←/→/↑/↓ # 切换窗格

三、conda环境管理(隔离Python环境)

conda create -n pytorch python=3.8 # 创建名为pytorch的环境,指定Python版本conda activate pytorch # 激活环境conda deactivate # 退出当前环境conda install pytorch torchvision cudatoolkit -c pytorch # 安装包conda list # 查看已安装包conda env export > environment.yml # 导出环境配置conda env create -f environment.yml # 从配置文件创建环境conda remove -n pytorch --all # 删除环境

四、GPU状态检查(监控显卡)

nvidia-smi # 显示GPU利用率、显存占用等watch -n 1 nvidia-smi # 每秒刷新监控GPUnvidia-smi -q -d MEMORY | grep Used # 查询详细显存使用gpustat # 更美观的GPU监控(需pip install gpustat)nvidia-smi --query-gpu=index,name,memory.used,utilization.gpu --format=csv # 以CSV格式输出

五、网络检查(诊断连接问题)

ping -c 4 google.com # 测试网络连通性ifconfig 或 ip addr # 查看IP地址及网络接口netstat -tulpn # 查看端口监听情况curl -I http://localhost:8080 # 测试HTTP服务是否正常wget -O /dev/null http://example.com/file # 测试下载速度traceroute baidu.com # 路由追踪

六、系统检查(CPU、内存、磁盘)

lscpu # 查看CPU架构信息free -h # 查看内存使用情况df -h # 查看磁盘分区使用情况du -sh * # 统计当前目录下各文件夹大小uptime # 查看系统负载与运行时间dmesg | tail -20 # 查看内核日志(最后20行)systemctl list-units --type=service # 查看系统服务状态

总结:以上指令覆盖了深度学习日常开发中的大部分场景,从环境搭建、任务管理到问题排查。建议收藏本文,在实际操作中反复练习,逐渐形成肌肉记忆。组合使用这些工具,能让你的工作效率大幅提升。