第一次租GPU跑模型?先看这20个常见报错和解决方案
2026-05-03 · AI云服务实战笔记
第一次租GPU跑模型的时候,我连续报错了三个小时才把模型跑通。后来帮几个朋友解决问题,发现大家踩的坑高度重合。整理了20个最常见的报错和解决方案。
环境安装类(#1-#5)
1. nvidia-smi: command not found
原因:NVIDIA驱动没装或没加载。
解决:sudo apt install -y nvidia-driver-550 && sudo reboot
2. CUDA version mismatch
现象:The detected CUDA version (11.8) mismatches the version that was used to compile PyTorch (12.4)
原因:PyTorch和系统的CUDA版本不一致。
解决:装对应版本的PyTorch。CUDA 12.4就用 pip install torch --index-url https://download.pytorch.org/whl/cu124
3. torch.cuda.is_available() 返回 False
排查步骤:nvidia-smi确认驱动 → nvcc --version确认CUDA → python -c "import torch; print(torch.version.cuda)"确认PyTorch。版本不一致就重装PyTorch。
4. ImportError: libcudnn.so.8
cuDNN没装:sudo apt install -y libcudnn8
5. flash_attn not available
GPU架构不兼容。用sdpa替代:设置 attn_implementation="sdpa"
显存相关(#6-#9)
6. CUDA out of memory(最经典的报错)
T4 16GB显存实际可用约14GB,跑7B模型FP16刚好卡边界。解决方案:
- 量化:用AWQ或GPTQ把模型压到4bit,显存需求降为1/4
- 减小batch size和max_length
- 换更大显存的GPU(L40S 48GB够跑13B-32B)
7. 显存碎片化导致分配失败
现象:nvidia-smi显示还有8GB空闲,分配5GB却OOM。
解决:设置 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True 或重启Python进程。
8. 多进程抢占显存
排查:nvidia-smi 看有几个Python进程在用GPU。fuser -v /dev/nvidia* 找占用进程。
9. Killed(OOM Killer杀了进程)
系统内存不足,OOM Killer把Python进程杀了。减小模型或加swap。
模型加载类(#10-#13)
10. 模型权重下载到一半断了
HuggingFace在国内速度不稳定。用镜像:export HF_ENDPOINT=https://hf-mirror.com,或者用ModelScope下载。
11. safetensors加载失败
升级transformers:pip install transformers -U
12. tokenizer加载失败
部分GGUF量化模型不带tokenizer文件,需要手动下载原版模型并指定tokenizer路径。
13. tokenizers版本冲突
pip install tokenizers -U
推理性能类(#14-#17)
14. 推理速度只有2-3 tok/s
7B模型在T4上正常应到20-30 tok/s。检查:是否用了CPU推理(torch.cuda.is_available())、是否装了flash_attention。
15. NCCL timeout(多卡通信失败)
单卡场景不需要NCCL。多卡时设:export NCCL_IB_DISABLE=1
16. Bus error
系统内存不足。加swap或换大内存实例。
17. Illegal instruction
CPU不支持AVX指令集,换了新一点的CPU实例就好了。
其他常见问题(#18-#20)
18. Disk quota exceeded(磁盘满了)
一个70B模型FP16约140GB。检查磁盘:df -h。清理pip缓存:pip cache purge。考虑加数据盘。
19. SSH连接超时断连
用tmux或screen保持会话:tmux new -s train。即使SSH断了,进程继续跑。
20. permission denied: /dev/nvidia0
当前用户不在video组:sudo usermod -aG video $USER,重新登录生效。