此前我们发布了一个基于gpu-burn基准测试的参考笔记,这里也记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为nvlink和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。
1.pcie版本性能测试
测试功能 | 4090/4090D | 5090/5090d | A100/A800 | H100/H200/H800 |
---|---|---|---|---|
all_gather_perf | 38.62 | |||
all_reduce_perf | 40.91 | |||
alltoall_perf | 28.61 |
2.nvlink版本性能测试
测试功能 | A100/A800 | H100/H200/H800 |
---|---|---|
all_gather_perf | /152.21 | 477.67/473.21/ |
all_reduce_perf | /156.53 | 355.03/367.27/ |
alltoall_perf | /147.70 | 343.59/345.64/ |
内容版权声明:除非注明,否则皆为本站原创文章。
相关阅读
- AI应用程序导致GPU异常的常见原因
- 英伟达GPU XID Errors介绍和错误码整理
- 使用GPU时出现XID 119/XID 120错误导致GPU掉卡
- 各型号GPU使用gpu-burn和cublasMatmulBench性能测试基准参考
- ubuntu22.04安装nvidia-fabricmanager
- linux编译安装nccl通信库
- linux下开启GPU Direct RDMA(GDR)的方法
- ubuntu使用nvbandwidth测试单节点gpu带宽性能
- nvidia-peermem和dmabuf两种GDR方式的区别
- ubuntu22.04使用nccl-tests进行单机多卡通信测试
评论列表