- 博客(13)
- 收藏
- 关注
原创 常见GPU算力比较(X100计算卡,GX100)
* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。取 A100 80GB PCIe 的算力为 100%1、CUDA Core 算力。
2025-02-06 13:12:13
462
原创 常见GPU算力(V100,GV100)
注意到,完整 GV100 核心有 6 组 GPC,每组 GPC 包含 7 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GV100 核心共有 84 个 SM 单元,但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。每个 SM 单元中有 8 个 Tensor Core,因此 V100 的 GV100 总共含有 640 个 Tensor Core。
2025-02-06 11:11:13
595
原创 常见GPU算力(H100,GH100)
每个 SM 单元中有 128 个 CUDA 计算单元。每个 SM 单元中有 128 个 FP32 计算单元、64 个 INT32 计算单元和 64 个 FP64 计算单元。支持的数据类型有FP8、FP16、BF16、TF32、FP64、INT8、INT4。* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。2、Tensor Core 算力。
2025-02-04 23:08:29
946
原创 常见GPU算力(A100,GA100)
注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。
2025-02-04 10:44:40
640
原创 常见GPU算力(2080Ti,TU102-300A)
注意到,完整 TU102 核心共有 6 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 TU102 核心共有 72 个 SM 单元,但 TU102-300A 只开启其中的 68 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 2 个 FP64 计算单元。支持的数据类型有 FP16、INT8、INT4,不支持 FP64、BF16、TF32。
2025-02-03 21:10:01
1703
原创 常见GPU算力(3090&3090Ti,GA102-300&GA102-350)
注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64。2、Tensor Core 算力。
2025-02-03 10:55:45
996
1
原创 常见GPU算力(5090&5090D,GB202-300&GB202-250)
注意到,完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,不支持 FP64。
2025-02-02 21:30:01
1599
原创 常见GPU算力(4090&4090D,AD102-300&AD102-250)
支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4,不支持 FP64。启用稀疏计算(2:4 模式)加速后,在神经网络权重中,强制每 4 个连续元素中至少 2 个为零,Tensor Core 硬件自动跳过零值计算,有效吞吐量翻倍。注意到,完整 AD102 核心有 12 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 AD102 核心共有 144 个 SM 单元,但 AD102-300 只开启其中的 128 个。
2025-02-01 19:27:46
4935
原创 WSL挂载&压缩磁盘
1、Win powershell 管理员查询硬盘。一整块未分区的硬盘,文件系统ext4。3、进入diskpart。一、挂载硬盘(未分区)2、确认WSL服务状态。4、选择虚拟硬盘文件。5、连接虚拟硬盘文件。
2024-12-21 20:10:54
472
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人