gpu - 苏老的学习笔记

苏老的学习笔记

今日天气

°C
湖北省武汉市汉阳区

分类统计

博文归档

AI程序索引越界引起的nvidia-fabricnamage异常问题排查

这两天客户反馈程序跑到一半异常了，然后查看dmesg日志有打印有很多nvswitch的12028的致命错误信息，还有Xid 94 和 137的错误信息，相关Xid 错误信息可以在这个笔记里面进行查询核对：https://...

荐英伟达GPU内核和驱动优化参数介绍

目前交付场景中我们常做一些内核和驱动参数优化，主要有内核加载nvidia_peermem，还有一些驱动调节参数，NVreg_EnableStreamMemOPs， NVreg_RegistryDwords，NVreg_E...

英伟达GPU nvidia-smi常用命令详解

nvidia-smi 是 NVIDIA 提供的 GPU 管理工具，用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统，安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...

荐 GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查

今天遇到一个节点卡住的问题，登录就一直卡着，直到好半天登录上去，查看dmesg日志，发现打印了以下错误信息从上述日志分析到时状态切换超时的问题，然后检查GPU状态，发现GPU未开启持久模式这种情况下可能是由于GPU在无任...

linux下gpu降速问题排查

今天在告警信息中查看到了hardware slow_down DA:00.0，第一反应是硬件降速了，对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...

linux
gpu

ubuntu22.04安装dcgm和基本用法

DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能1.GPU 行为监控 2.GPU 配置管理 3.GPU 策略监督 4.GP...

RTX 5090在cuda13.0下gpu-burn编译报错的解决方法

目前cuda最新的版本已经来到了13.0，今天在cuda13.0的环境下编译gpu-burn报错，查了下资料，cuCtxCreate函数升级为了最新的v4，需要传入4个参数，但是gpu-burn还没更新，所以需要修正下这...

荐 k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报

我们此前都是手工部署nvidia-container-runtime，上报gpu信息使用的k8s-device-plugin，这些都是手工部署的，其中nvidia-container-runtime的部署涉及修改cont...

ubuntu22.04算力环境基础配置一键验证脚本

发了一个算力环境基础配置的一键脚本，这里将自己写的环境验证脚本也一并发下，方便后面自己使用。#!/bin/bash #set -e function INFO(){ /bin/echo -e "\e[104m\...

ubuntu
gpu

ubuntu22.04算力环境基础配置一键脚本

自己写的算力环境基础配置一键脚本，方便自己使用，如果普通用户没有免密的话需要输入一次密码，如果是root用户就直接执行#!/bin/bash #set -e CURRENT_PATH=`readlink -f $(di...

ubuntu
gpu

首页 1 2 3 4 5 尾页

常用网站

构建本站 Python Gunicorn Flask LayUI Peewee MySQL Redis Celery

今日天气

分类统计

博文归档

2篇

8篇

6篇

6篇

3篇

12篇

15篇

43篇

23篇

热门推荐

热门标签

AI程序索引越界引起的nvidia-fabricnamage异常问题排查

荐英伟达GPU内核和驱动优化参数介绍

英伟达GPU nvidia-smi常用命令详解

荐 GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查

linux下gpu降速问题排查

ubuntu22.04安装dcgm和基本用法

RTX 5090在cuda13.0下gpu-burn编译报错的解决方法

荐 k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报

ubuntu22.04算力环境基础配置一键验证脚本

ubuntu22.04算力环境基础配置一键脚本

常用网站

今日天气

分类统计

博文归档

2篇

8篇

6篇

6篇

3篇

12篇

15篇

43篇

23篇

热门推荐

热门标签

AI程序索引越界引起的nvidia-fabricnamage异常问题排查

荐 英伟达GPU内核和驱动优化参数介绍

英伟达GPU nvidia-smi常用命令详解

荐 GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查

linux下gpu降速问题排查

ubuntu22.04安装dcgm和基本用法

RTX 5090在cuda13.0下gpu-burn编译报错的解决方法

荐 k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报

ubuntu22.04算力环境基础配置一键验证脚本

ubuntu22.04算力环境基础配置一键脚本

常用网站

荐英伟达GPU内核和驱动优化参数介绍