Dolphin期材-优快云博客

原创常见GPU算力比较（X100计算卡，GX100）

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率，第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元，其中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32。取 A100 80GB PCIe 的算力为 100%1、CUDA Core 算力。

2025-02-06 13:12:13 462

原创常见GPU算力（V100，GV100）

注意到，完整 GV100 核心有 6 组 GPC，每组 GPC 包含 7 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GV100 核心共有 84 个 SM 单元，但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。每个 SM 单元中有 8 个 Tensor Core，因此 V100 的 GV100 总共含有 640 个 Tensor Core。

2025-02-06 11:11:13 595

原创常见GPU算力（H100，GH100）

每个 SM 单元中有 128 个 CUDA 计算单元。每个 SM 单元中有 128 个 FP32 计算单元、64 个 INT32 计算单元和 64 个 FP64 计算单元。支持的数据类型有FP8、FP16、BF16、TF32、FP64、INT8、INT4。* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率，第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。2、Tensor Core 算力。

2025-02-04 23:08:29 946

原创常见GPU算力（A100，GA100）

注意到，完整 GA100 核心有 8 组 GPC，每组 GPC 包含 8 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA100 核心共有 128 个 SM 单元，但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。

2025-02-04 10:44:40 640

原创常见GPU算力比较（历代游戏卡皇）

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

2025-02-03 21:54:03 490

原创常见GPU算力（2080Ti，TU102-300A）

注意到，完整 TU102 核心共有 6 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 TU102 核心共有 72 个 SM 单元，但 TU102-300A 只开启其中的 68 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 2 个 FP64 计算单元。支持的数据类型有 FP16、INT8、INT4，不支持 FP64、BF16、TF32。

2025-02-03 21:10:01 1703

原创常见GPU算力（3090&3090Ti，GA102-300&GA102-350）

注意到，完整 GA102 核心有 7 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA102 核心共有 84 个 SM 单元，但 GA102-300 只开启其中的 82 个，GA102-350 开启全部的 84 个 SM 单元。值得注意的是，从 3090 开始（包括后续的 4090 和 5090），每个 SM 中只有 2 个 FP64 计算单元，这导致理论双精浮点算力只有单精浮点算力的 1/64。2、Tensor Core 算力。

2025-02-03 10:55:45 996 1

原创常见GPU算力（5090&5090D，GB202-300&GB202-250）

注意到，完整 GB202 核心有 12 组 GPC，每组 GPC 包含 8 组 TPC（4090 的 AD102 中是 6 组），单个 TPC 中含有两个 SM 单元，因此完整 GB202 核心共有 192 个 SM 单元，但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core，因此 GB202-300 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4，不支持 FP64。

2025-02-02 21:30:01 1599

qq_45351564的博客

原创常见GPU算力比较（X100计算卡，GX100）

原创常见GPU算力（V100，GV100）

原创常见GPU算力（H100，GH100）

原创常见GPU算力（A100，GA100）

原创常见GPU算力比较（历代游戏卡皇）

原创常见GPU算力（2080Ti，TU102-300A）

原创常见GPU算力（3090&3090Ti，GA102-300&GA102-350）

原创常见GPU算力（5090&5090D，GB202-300&GB202-250）

原创常见GPU算力（4090&4090D，AD102-300&AD102-250）

原创 Healpix C++ CMakeLists

原创 HEALPix C++常用函数

原创 WSL挂载&压缩磁盘

原创 HEALPix C++安装

空空如也

空空如也