这两天客户反馈程序跑到一半异常了,然后查看dmesg日志有打印有很多nvswitch的12028的致命错误信息,还有Xid 94 和 137的错误信息,相关Xid 错误信息可以在这个笔记里面进行查询核对:https://...
nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用,作用是强制启用 GPU 对等映射,让GPU 间通信直接进行,避免CPU的介入从而降低CPU负载,且不占用主...
nvidia-smi 是 NVIDIA 提供的 GPU 管理工具,用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统,安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...
NVIDIA HPC SDK是一套综合的编译器、库和工具,用于GPU加速HPC建模和仿真应用。随着对运行Linux的NVIDIA gpu和x86-64、OpenPOWER或Arm cpu的支持,NVIDIA HPC SD...
NVIDIA HPC-X 是一个综合软件包,包括消息传递接口 (MPI)、对称分层内存 (SHMEM) 和分区全局地址空间 (PGAS) 通信库以及各种加速包。这个功能齐全、经过测试和打包的工具包使 MPI 和 SHME...
我们在k8s使用英伟达GPU时想让POD自动挂载我们需要部署nvidia-device-plugin组件,如何部署使用可以查看我之前的笔记:https://sulao.cn/post/975英伟达的device plug...
由于containerd下配置nvidia-container-runtime比较繁琐,所以写了脚本去自动修改使用python修改config.toml文件首先需要安装toml模块pip3 install toml然后就...
之前我们在centos/ubuntu上安装过nvidia-container-runtime,配置也都是在docker中配置的,那么我们最近本地环境整体从docker换成了containerd,那么今天就来记录下在con...
之前ubuntu安装的可以查看之前笔记:https://sulao.cn/post/916centos上安装也很简单,首先设置存储库和 GPG 密钥distribution=$(. /etc/os-release;ech...
GPU开启了持久模式以后,即使没有活动的客户端,NVIDIA驱动程序也会保持加载状态,这样可以很大程度减少与运行依赖程序的加载时间,适用于所有的CUDA产品。Persistence-M (Persistence Mode...