由于拿到机器是apt安装的nvidia驱动、cuda和nccl,我需要换个版本并改成本地安装的方式,以下是卸载过程记录方便以后使用。
sudo systemctl stop nvidia-fabricmanager
sudo systemctl disable nvidia-fabricmanager终止所有使用 GPU 的进程,避免文件冲突
sudo fuser -v /dev/nvidia* | awk '{print $2}' | xargs -I {} kill -9 {}解除更新锁定
sudo apt-mark unhold 'nvidia-*' 'libnvidia-*'彻底删除nvidia相关软件和库
sudo apt purge --allow-change-held-packages 'nvidia-*' 'libnvidia-*'移除所有 CUDA 相关包及其配置文件
sudo apt purge --allow-change-held-packages '*cuda*' '*cublas*' '*cufft*' '*cufile*' '*curand*' '*cusolver*' '*cusparse*' '*npp*' '*nvjpeg*' 'nsight*' '*nvvm*'移除所有 NCCL 相关包
sudo apt purge libnccl2 libnccl-dev
清理自动安装的、不再需要的依赖包
sudo apt autoremove --purge清理本地软件包缓存
sudo apt autoclean删除可能残留的 CUDA 目录和文件
sudo rm -rf /usr/local/cuda*
sudo rm -rf /usr/local/nvidia*
sudo rm -f /etc/ld.so.conf.d/cuda.conf
sudo rm -rf ~/.nv/
sudo rm -rf /usr/lib/nvidia*
sudo rm -rf /usr/lib/x86_64-linux-gnu/libnvidia*
sudo rm -rf /usr/share/doc/nvidia-*
sudo rm -rf /var/lib/dkms/nvidia*
sudo rm -f /etc/ld.so.conf.d/nvidia-*.conf
sudo rm -f /etc/modprobe.d/nvidia-*.conf
sudo rm -f /etc/apt/sources.list.d/nvidia-*.list删除 fabricmanager 可能遗留的目录
sudo rm -rf /opt/nvidia/fabricmanager
sudo rm -f /usr/bin/nvidia-fabricmanager-*最后更新动态链接库缓存
sudo ldconfig更新 initramfs 并重启
sudo update-initramfs -u
sudo reboot
内容版权声明:除非注明,否则皆为本站原创文章。
相关阅读
- AI程序索引越界引起的nvidia-fabricnamage异常问题排查
- linux内核无法加载nvidia-peermem模块的问题分析
- 英伟达GPU内核和驱动优化参数介绍
- 英伟达GPU nvidia-smi常用命令详解
- openmpi编译缺少libz压缩库导致的多机多卡测试失败问题解决方法
- ubuntu22.04安装dcgm和基本用法
- ubuntu22.04安装cuda失败提示"Uninstall manifest corrupt"
- ubuntu使用ssh命令批量设置集群节点具有sudo权限的账户sudo免密切换
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- ubuntu22.04算力环境基础配置一键验证脚本
评论列表