nvidia-smi 是 NVIDIA 提供的 GPU 管理工具,用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统,安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...
今天遇到一个节点卡住的问题,登录就一直卡着,直到好半天登录上去,查看dmesg日志,发现打印了以下错误信息从上述日志分析到时状态切换超时的问题,然后检查GPU状态,发现GPU未开启持久模式这种情况下可能是由于GPU在无任...
今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...
目前cuda最新的版本已经来到了13.0,今天在cuda13.0的环境下编译gpu-burn报错,查了下资料,cuCtxCreate函数升级为了最新的v4,需要传入4个参数,但是gpu-burn还没更新,所以需要修正下这...
我们此前都是手工部署nvidia-container-runtime,上报gpu信息使用的k8s-device-plugin,这些都是手工部署的,其中nvidia-container-runtime的部署涉及修改cont...
由于经常需要做测试,所以撰写了一个测试单机多卡的bash脚本,前提需要环境中已经安装nvidia驱动和cuda库,且cuda库安装在默认目录/usr/local/下,然后nccl我是下载的zip包,名字是nccl-mas...
AI训练程序也是是导致GPU异常的最常见原因之一。训练深度神经网络对GPU施加的压力是巨大且持续的,远超大多数图形渲染或通用计算任务。1.显存耗尽 (Out of Memory - OOM)这是最常见的的原因。当训练程序...
Xid 消息是来自 NVIDIA 驱动程序的错误报告,会打印到操作系统的内核日志或事件日志中。Xid 消息表明发生了普遍的 GPU 错误,通常是因为驱动程序错误地对 GPU 进行了编程,或者是因为发送给 GPU 的指令出...
在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况...
这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://s...
由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续...
GPU Direct RDMA 是一种由 NVIDIA 开发的技术,旨在实现 GPU 与第三方设备(如网络接口、视频采集设备、存储适配器)之间的直接数据交换,而无需经过 CPU 的参与。这项技术利用 PCI Expres...
nvbandwidth是一款用于 NVIDIA 图形处理器带宽测量的工具,nvbandwidth 会使用复制引擎或内核复制方法来测量不同链路上各种 memcpy 模式的带宽。nvbandwidth 会报告您系统当前的测量...
cublasMatmulBench这个工具非官方渠道的工具,但是从nvidia github上的资料信息来看,应该是某些渠道获取的一个工具,可以在环境中正常使用。今天就来介绍怎么使用这个工具,用法比较简单,主要是针对GM...
Tensorflow在启动的时候会占用所有显存,然后自行对显存进行管理,这是tensorflow的显存管理机制,他可以申请到连续的显存地址然后进行分配,这样对显存的使用更高效,在实际使用中,由于显存资源比较紧张,所以可以...
NVIDIA Nsight™ Systems 是一款系统级性能分析工具,旨在实现应用算法的可视化,找出程序中最值得优化的"瓶颈",并进行调整以跨任意数量或大小的 CPU 和 GPU (从大型服务器到最小的系统级芯片 (S...
gpu在电源功率不足,温度过高或者在长期高负载或者是驱动程序影响的情况下会降频,那么我们可以通过锁频来固定gpu的频率,当然这种方式也不能解决高温和电源功率不足的问题,我们这里只是了解下如何锁频,操作比较简单。我们首先通...
CUDA驱动程序提供向后兼容的API。因此,新的NVIDIA驱动程序将始终与旧的CUDA工具包一起工作。这里记录了CUDA的这种行为。然而,每个CUDA工具包都需要最低版本的NVIDIA驱动程序。因此,当使用诸如NVID...
计算能力(CC)定义了每个NVIDIA GPU架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。对于传统GPU,请参考传统CUDA GPU计算能力。有些卡没有找到,但是你可以通过命令查询卡的计算力,使用如下命...