各型号GPU使用nccl-tests单机多卡性能测试基准参考

推荐

此前我们发布了一个基于gpu-burn基准测试的参考笔记,这里也记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为nvlink和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。

1.pcie版本性能测试

测试功能4090/4090D5090/5090dA100/A800H100/H200/H800
all_gather_perf

38.62

all_reduce_perf

40.91

alltoall_perf

28.61

2.nvlink版本性能测试

测试功能A100/A800H100/H200/H800
all_gather_perf

/152.21

477.67/473.21/
all_reduce_perf

/156.53

355.03/367.27/
alltoall_perf

/147.70 

343.59/345.64/

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.sulao.cn/post/1109

评论列表

0%