【CUDA安装指南】解决/tmp空间不足与安装包损坏的实用技巧 1. 为什么/tmp空间不足会导致CUDA安装失败第一次在Linux系统上安装CUDA时我就被这个报错狠狠坑过Extraction failed. Ensure there is enough space in /tmp...。当时完全不明白为什么安装程序会跟/tmp目录扯上关系直到后来才发现CUDA安装包其实是个自解压程序。这个.run安装包运行时会先把所有文件解压到临时目录默认是/tmp再进行安装。CUDA Toolkit完整安装需要至少1.5GB临时空间如果/tmp所在分区剩余空间不足就会直接报错退出。我遇到过最极端的情况是/tmp只有500MB空闲结果安装到一半就卡死了。检查/tmp空间的方法很简单df -h /tmp如果发现可用空间不足别急着删文件。有些系统/tmp是挂载在根分区下的盲目删除可能影响系统稳定性。更安全的做法是换个临时目录比如在/home下新建一个临时文件夹mkdir ~/cuda_temp export TMPDIR~/cuda_temp2. 如何指定自定义临时目录NVIDIA官方其实提供了--tmpdir参数来指定临时目录但很多人不知道这个隐藏功能。我推荐的做法是找一个至少有5GB空闲空间的分区可以用df -h查看创建临时目录并设置权限sudo mkdir /opt/cuda_temp sudo chmod 1777 /opt/cuda_temp安装时带上--tmpdir参数sudo sh cuda_11.1.1_455.32.00_linux.run --tmpdir/opt/cuda_temp这里有个坑要注意如果直接用./cuda_xxx.run执行可能会报权限不够。必须用sh或bash解释器来运行或者先给.run文件添加执行权限chmod x cuda_11.1.1_455.32.00_linux.run3. 安装包损坏的排查与修复上周帮同事调试时遇到个诡异问题同样的安装包在我机器上正常在他那就报installation package is corrupt。后来发现是下载过程中网络波动导致文件不完整。验证安装包完整性的方法有检查文件大小ls -lh cuda_11.1.1_455.32.00_linux.run完整版应该约2.5GB不同版本有差异验证MD5校验码md5sum cuda_11.1.1_455.32.00_linux.run对比NVIDIA官网提供的校验值通常在下载页面能找到如果确认损坏建议用wget重新下载wget -c https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda_11.1.1_455.32.00_linux.run-c参数支持断点续传适合大文件下载4. 安装后的环境配置技巧安装完成后如果直接运行nvcc -V报错大概率是环境变量没配置。我习惯在~/.bashrc中添加这些设置export CUDA_HOME/usr/local/cuda-11.1 export PATH$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH$CUDA_HOME/lib64:$LD_LIBRARY_PATH保存后执行source ~/.bashrc立即生效有个容易忽略的细节如果安装时没勾选Driver选项比如已经装了更新的驱动最后会显示***WARNING: Incomplete installation!。这其实不是错误只是提醒你没安装驱动而已。可以用nvidia-smi确认驱动是否正常。最后提醒下CUDA Toolkit和Driver版本有对应关系。比如CUDA 11.1至少需要450.80.02版驱动。如果遇到兼容性问题建议查看NVIDIA官方的版本匹配表格。