各型号GPU使用cublasMatmulBench性能测试基准参考

推荐

由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。

1.4090/4090D 精度测试

精度4090 性能(Gflops/s)4090D 性能(Gflops/s)备注

FP64

1264.5601099.236

FP32

47161.04344593.126

TF32

90016.49778573.657

FP16

268931.931256072.221

BF16

173258.436155224.331

FP8

349868.208311841.561

2.5090/5090D 精度测试

精度5090 性能(Gflops/s)5090D 性能(Gflops/s)备注
FP641771.993
FP3272860.868
TF32124330.565
FP16380687.383
BF16248270.421
FP8501711.101

3.A100/A800 精度测试

精度A100 性能(Gflops/s)A800 性能(Gflops/s)备注
FP64

19389.276

19408.540
FP32

19035.479

19018.908
TF32

148085.927

147939.395
FP16

293675.457

295695.239
BF16

295104.887

294968.559
FP8不支持不支持

4.H100/H200/H800 精度测试

精度H100 性能(Gflops/s)H200 性能(Gflops/s)H800 性能(Gflops/s)备注
FP6465267.40564923.124
FP3252955.03052570.680
TF32405211.665459470.270
FP16817665.475785645.918
BF16781517.941823442.263
FP81403399.4801524281.370

5.H20 精度测试

精度性能(Gflops/s)备注
FP64

617.597

FP32

30980.519

TF32

71265.153

FP16

143799.763 

BF16

141562.134

FP8

283694.054

6.B200 精度测试

精度性能(Gflops/s)备注
FP6436150.242
FP3266159.162
TF321069574.682
FP162003063.242
BF162136413.363
FP8

4401636.398

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.sulao.cn/post/1108

评论列表

0%