第一次租GPU跑模型?先看这20个常见报错和解决方案

2026-05-03 · AI云服务实战笔记

相关阅读:
语音识别API接入实战 | 云服务省钱攻略

第一次租GPU跑模型的时候,我连续报错了三个小时才把模型跑通。后来帮几个朋友解决问题,发现大家踩的坑高度重合。整理了20个最常见的报错和解决方案。

环境安装类(#1-#5)

1. nvidia-smi: command not found

原因:NVIDIA驱动没装或没加载。
解决:sudo apt install -y nvidia-driver-550 && sudo reboot

2. CUDA version mismatch

现象:The detected CUDA version (11.8) mismatches the version that was used to compile PyTorch (12.4)
原因:PyTorch和系统的CUDA版本不一致。
解决:装对应版本的PyTorch。CUDA 12.4就用 pip install torch --index-url https://download.pytorch.org/whl/cu124

3. torch.cuda.is_available() 返回 False

排查步骤:nvidia-smi确认驱动 → nvcc --version确认CUDA → python -c "import torch; print(torch.version.cuda)"确认PyTorch。版本不一致就重装PyTorch。

4. ImportError: libcudnn.so.8

cuDNN没装:sudo apt install -y libcudnn8

5. flash_attn not available

GPU架构不兼容。用sdpa替代:设置 attn_implementation="sdpa"

显存相关(#6-#9)

6. CUDA out of memory(最经典的报错)

T4 16GB显存实际可用约14GB,跑7B模型FP16刚好卡边界。解决方案:

7. 显存碎片化导致分配失败

现象:nvidia-smi显示还有8GB空闲,分配5GB却OOM。
解决:设置 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True 或重启Python进程。

8. 多进程抢占显存

排查:nvidia-smi 看有几个Python进程在用GPU。fuser -v /dev/nvidia* 找占用进程。

9. Killed(OOM Killer杀了进程)

系统内存不足,OOM Killer把Python进程杀了。减小模型或加swap。

模型加载类(#10-#13)

10. 模型权重下载到一半断了

HuggingFace在国内速度不稳定。用镜像:export HF_ENDPOINT=https://hf-mirror.com,或者用ModelScope下载。

11. safetensors加载失败

升级transformers:pip install transformers -U

12. tokenizer加载失败

部分GGUF量化模型不带tokenizer文件,需要手动下载原版模型并指定tokenizer路径。

13. tokenizers版本冲突

pip install tokenizers -U

推理性能类(#14-#17)

14. 推理速度只有2-3 tok/s

7B模型在T4上正常应到20-30 tok/s。检查:是否用了CPU推理(torch.cuda.is_available())、是否装了flash_attention。

15. NCCL timeout(多卡通信失败)

单卡场景不需要NCCL。多卡时设:export NCCL_IB_DISABLE=1

16. Bus error

系统内存不足。加swap或换大内存实例。

17. Illegal instruction

CPU不支持AVX指令集,换了新一点的CPU实例就好了。

最快的起步方式:如果不想折腾环境,直接用云厂商的HAI服务一键部署模型。或者从轻量服务器99元/年开始练习Linux操作,熟练了再上GPU实例。

其他常见问题(#18-#20)

18. Disk quota exceeded(磁盘满了)

一个70B模型FP16约140GB。检查磁盘:df -h。清理pip缓存:pip cache purge。考虑加数据盘。

19. SSH连接超时断连

用tmux或screen保持会话:tmux new -s train。即使SSH断了,进程继续跑。

20. permission denied: /dev/nvidia0

当前用户不在video组:sudo usermod -aG video $USER,重新登录生效。

返回首页