由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。
1.4090/4090D 精度测试
| 精度 | 4090 性能(Gflops/s) | 4090D 性能(Gflops/s) | 备注 |
|---|---|---|---|
FP64 | 1264.560 | 1099.236 | |
FP32 | 47161.043 | 44593.126 | |
TF32 | 90016.497 | 78573.657 | |
FP16 | 268931.931 | 256072.221 | |
BF16 | 173258.436 | 155224.331 | |
FP8 | 349868.208 | 311841.561 |
2.5090/5090D 精度测试
| 精度 | 5090 性能(Gflops/s) | 5090D 性能(Gflops/s) | 备注 |
|---|---|---|---|
| FP64 | 1771.993 | ||
| FP32 | 72860.868 | ||
| TF32 | 124330.565 | ||
| FP16 | 380687.383 | ||
| BF16 | 248270.421 | ||
| FP8 | 501711.101 |
3.A100/A800 精度测试
| 精度 | A100 性能(Gflops/s) | A800 性能(Gflops/s) | 备注 |
|---|---|---|---|
| FP64 | 19389.276 | 19408.540 | |
| FP32 | 19035.479 | 19018.908 | |
| TF32 | 148085.927 | 147939.395 | |
| FP16 | 293675.457 | 295695.239 | |
| BF16 | 295104.887 | 294968.559 | |
| FP8 | 不支持 | 不支持 |
4.H100/H200/H800 精度测试
| 精度 | H100 性能(Gflops/s) | H200 性能(Gflops/s) | H800 性能(Gflops/s) | 备注 |
|---|---|---|---|---|
| FP64 | 65267.405 | 64923.124 | ||
| FP32 | 52955.030 | 52570.680 | ||
| TF32 | 405211.665 | 459470.270 | ||
| FP16 | 817665.475 | 785645.918 | ||
| BF16 | 781517.941 | 823442.263 | ||
| FP8 | 1403399.480 | 1524281.370 |
5.H20 精度测试
| 精度 | 性能(Gflops/s) | 备注 |
|---|---|---|
| FP64 | 617.597 | |
| FP32 | 30980.519 | |
| TF32 | 71265.153 | |
| FP16 | 143799.763 | |
| BF16 | 141562.134 | |
| FP8 | 283694.054 |
6.B200 精度测试
| 精度 | 性能(Gflops/s) | 备注 |
|---|---|---|
| FP64 | 36150.242 | |
| FP32 | 66159.162 | |
| TF32 | 1069574.682 | |
| FP16 | 2003063.242 | |
| BF16 | 2136413.363 | |
| FP8 | 4401636.398 |
内容版权声明:除非注明,否则皆为本站原创文章。
评论列表