CUDA out of memory怎么解决？

四个方法：1)用AWQ/GPTQ量化模型到4bit；2)减小batch size和max_length；3)换更大显存的GPU；4)设置PYTORCH_CUDA_ALLOC_CONF减少显存碎片。

租GPU云服务器跑模型需要装什么？

需要安装：NVIDIA驱动、CUDA Toolkit、cuDNN、Python+PyTorch。大部分云厂商的GPU实例已预装驱动和CUDA。

nvidia-smi显示有显存但还是OOM？

这是显存碎片化问题。看似空闲的显存被分散成小块无法分配连续空间。设置环境变量或重启进程可解决。

第一次租GPU跑模型？先看这20个常见报错和解决方案

2026-05-03 · AI云服务实战笔记

相关阅读：
语音识别API接入实战 | 云服务省钱攻略

第一次租GPU跑模型的时候，我连续报错了三个小时才把模型跑通。后来帮几个朋友解决问题，发现大家踩的坑高度重合。整理了20个最常见的报错和解决方案。

环境安装类（#1-#5）

1. nvidia-smi: command not found

原因：NVIDIA驱动没装或没加载。
解决：sudo apt install -y nvidia-driver-550 && sudo reboot

2. CUDA version mismatch

现象：The detected CUDA version (11.8) mismatches the version that was used to compile PyTorch (12.4)
原因：PyTorch和系统的CUDA版本不一致。
解决：装对应版本的PyTorch。CUDA 12.4就用 pip install torch --index-url https://download.pytorch.org/whl/cu124

3. torch.cuda.is_available() 返回 False

排查步骤：nvidia-smi确认驱动 → nvcc --version确认CUDA → python -c "import torch; print(torch.version.cuda)"确认PyTorch。版本不一致就重装PyTorch。

4. ImportError: libcudnn.so.8

cuDNN没装：sudo apt install -y libcudnn8

5. flash_attn not available

GPU架构不兼容。用sdpa替代：设置 attn_implementation="sdpa"

显存相关（#6-#9）

6. CUDA out of memory（最经典的报错）

T4 16GB显存实际可用约14GB，跑7B模型FP16刚好卡边界。解决方案：

量化：用AWQ或GPTQ把模型压到4bit，显存需求降为1/4
减小batch size和max_length
换更大显存的GPU（L40S 48GB够跑13B-32B）

7. 显存碎片化导致分配失败

现象：nvidia-smi显示还有8GB空闲，分配5GB却OOM。
解决：设置 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True 或重启Python进程。

8. 多进程抢占显存

排查：nvidia-smi 看有几个Python进程在用GPU。fuser -v /dev/nvidia* 找占用进程。

9. Killed（OOM Killer杀了进程）

系统内存不足，OOM Killer把Python进程杀了。减小模型或加swap。

模型加载类（#10-#13）

10. 模型权重下载到一半断了

HuggingFace在国内速度不稳定。用镜像：export HF_ENDPOINT=https://hf-mirror.com，或者用ModelScope下载。

11. safetensors加载失败

升级transformers：pip install transformers -U

12. tokenizer加载失败

部分GGUF量化模型不带tokenizer文件，需要手动下载原版模型并指定tokenizer路径。

13. tokenizers版本冲突

pip install tokenizers -U

推理性能类（#14-#17）

14. 推理速度只有2-3 tok/s

7B模型在T4上正常应到20-30 tok/s。检查：是否用了CPU推理（torch.cuda.is_available()）、是否装了flash_attention。

15. NCCL timeout（多卡通信失败）

单卡场景不需要NCCL。多卡时设：export NCCL_IB_DISABLE=1

16. Bus error

系统内存不足。加swap或换大内存实例。

17. Illegal instruction

CPU不支持AVX指令集，换了新一点的CPU实例就好了。

最快的起步方式：如果不想折腾环境，直接用云厂商的HAI服务一键部署模型。或者从轻量服务器99元/年开始练习Linux操作，熟练了再上GPU实例。

其他常见问题（#18-#20）

18. Disk quota exceeded（磁盘满了）

一个70B模型FP16约140GB。检查磁盘：df -h。清理pip缓存：pip cache purge。考虑加数据盘。

19. SSH连接超时断连

用tmux或screen保持会话：tmux new -s train。即使SSH断了，进程继续跑。

20. permission denied: /dev/nvidia0

当前用户不在video组：sudo usermod -aG video $USER，重新登录生效。

返回首页