nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用,作用是强制启用 GPU 对等映射,让GPU 间通信直接进行,避免CPU的介入从而降低CPU负载,且不占用主...
目前交付场景中我们常做一些内核和驱动参数优化,主要有内核加载nvidia_peermem,还有一些驱动调节参数,NVreg_EnableStreamMemOPs, NVreg_RegistryDwords,NVreg_E...
前天有台客户的服务器自动重启了,接到通知后我对服务器进行了排查分析,顺便记录下这次排查的过程,登录重启的服务器我们首先就是需要确认的是重启的时间journalctl --list-boots 0 46204d44f10a...
今天客户有块磁盘识别容量大小异常,于是尝试关机插拔磁盘试试,插拔完重启使用mount -a进行挂载的时候出现了以下报错mount: /mnt/data1: wrong fs type, bad option, bad s...
周末遇到一个问题,就是由于我ubuntu22.04安装的内核版本比较老,是5.15.0-88-generic这个版本,然后发现linux-libc-dev这个软件被升级了,我们使用命令查看跟内核版本不一致,这个包是lin...
最近监控有需求要监控计算网络,也就是infiniband网络,目前已有dcgm-exporter和node-exporter,就看看infiniband是否也有类似的expoter可以用来监控,于是查了下InfiniBa...
nvidia-smi 是 NVIDIA 提供的 GPU 管理工具,用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统,安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...