nvidia - 苏老的学习笔记

由于拿到机器是apt安装的nvidia驱动、cuda和nccl，我需要换个版本并改成本地安装的方式，以下是卸载过程记录方便以后使用。sudo systemctl stop nvidia-fabricmanager sud...

这两天客户反馈程序跑到一半异常了，然后查看dmesg日志有打印有很多nvswitch的12028的致命错误信息，还有Xid 94 和 137的错误信息，相关Xid 错误信息可以在这个笔记里面进行查询核对：https://...

nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用，作用是强制启用 GPU 对等映射，让GPU 间通信直接进行，避免CPU的介入从而降低CPU负载，且不占用主...

目前交付场景中我们常做一些内核和驱动参数优化，主要有内核加载nvidia_peermem，还有一些驱动调节参数，NVreg_EnableStreamMemOPs， NVreg_RegistryDwords，NVreg_E...

DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能1.GPU 行为监控 2.GPU 配置管理 3.GPU 策略监督 4.GP...

Xid 消息是来自 NVIDIA 驱动程序的错误报告，会打印到操作系统的内核日志或事件日志中。Xid 消息表明发生了普遍的 GPU 错误，通常是因为驱动程序错误地对 GPU 进行了编程，或者是因为发送给 GPU 的指令出...

nvlink的GPU卡都需要安装fabricmanager，此前在centos的机器部署过fabricmanager，现在需要在ubuntu2204上进行部署，之前的笔记可以直接查看这里：https://sulao.cn...

NVIDIA HPC SDK是一套综合的编译器、库和工具，用于GPU加速HPC建模和仿真应用。随着对运行Linux的NVIDIA gpu和x86-64、OpenPOWER或Arm cpu的支持，NVIDIA HPC SD...

NVIDIA HPC-X 是一个综合软件包，包括消息传递接口（MPI）、对称分层内存（SHMEM）和分区全局地址空间（PGAS）通信库以及各种加速包。这个功能齐全、经过测试和打包的工具包使 MPI 和 SHME...

NCCL 的源码中，具有两种方式的 GDR，nvidia-peermem和dmabuf，在注册收发缓冲区时会优先选择后面一种方式。源码注释中的nv_peermem和nvidia-peermem是同一个东西，在不同版本的叫...

多实例GPU（MIG）功能允许将GPU安全地划分为多个独立的GPU实例，供CUDA应用程序使用。英伟达高端GPU卡都可以开启MIG，一般MIG实例最多可分配7个。MIG主要针对于那些未充分利用GPU资源的用户提供的GPU...

之前也有在centos7和ubuntu20.04安装过nvidia-container-runtime，这次是在ubuntu22.04上进行安装，nvidia-container-runtime的作用就是在docker环...

日常在一些程序中进行GPU调用，这些cuda程序异常崩溃的时候，有时会遇到掉卡掉驱动、没有进程但是显存被占用的情况，这个时候我们可以通过以下命令来尝试进行处理。如果是掉卡的话可以使用lspci查看下主板上还能否检测到GP...