自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 常见GPU算力比较(X100计算卡,GX100)

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。取 A100 80GB PCIe 的算力为 100%1、CUDA Core 算力。

2025-02-06 13:12:13 462

原创 常见GPU算力(V100,GV100)

注意到,完整 GV100 核心有 6 组 GPC,每组 GPC 包含 7 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GV100 核心共有 84 个 SM 单元,但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。每个 SM 单元中有 8 个 Tensor Core,因此 V100 的 GV100 总共含有 640 个 Tensor Core。

2025-02-06 11:11:13 595

原创 常见GPU算力(H100,GH100)

每个 SM 单元中有 128 个 CUDA 计算单元。每个 SM 单元中有 128 个 FP32 计算单元、64 个 INT32 计算单元和 64 个 FP64 计算单元。支持的数据类型有FP8、FP16、BF16、TF32、FP64、INT8、INT4。* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。2、Tensor Core 算力。

2025-02-04 23:08:29 946

原创 常见GPU算力(A100,GA100)

注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。

2025-02-04 10:44:40 640

原创 常见GPU算力比较(历代游戏卡皇)

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

2025-02-03 21:54:03 490

原创 常见GPU算力(2080Ti,TU102-300A)

注意到,完整 TU102 核心共有 6 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 TU102 核心共有 72 个 SM 单元,但 TU102-300A 只开启其中的 68 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 2 个 FP64 计算单元。支持的数据类型有 FP16、INT8、INT4,不支持 FP64、BF16、TF32。

2025-02-03 21:10:01 1703

原创 常见GPU算力(3090&3090Ti,GA102-300&GA102-350)

注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64。2、Tensor Core 算力。

2025-02-03 10:55:45 996 1

原创 常见GPU算力(5090&5090D,GB202-300&GB202-250)

注意到,完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,不支持 FP64。

2025-02-02 21:30:01 1599

原创 常见GPU算力(4090&4090D,AD102-300&AD102-250)

支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4,不支持 FP64。启用稀疏计算(2:4 模式)加速后,在神经网络权重中,强制每 4 个连续元素中至少 2 个为零,Tensor Core 硬件自动跳过零值计算,有效吞吐量翻倍。注意到,完整 AD102 核心有 12 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 AD102 核心共有 144 个 SM 单元,但 AD102-300 只开启其中的 128 个。

2025-02-01 19:27:46 4935

原创 Healpix C++ CMakeLists

【代码】Healpix C++ CMakeLists。

2024-12-28 15:17:11 78

原创 HEALPix C++常用函数

HEALPix C++常用函数。

2024-12-21 20:20:29 319

原创 WSL挂载&压缩磁盘

1、Win powershell 管理员查询硬盘。一整块未分区的硬盘,文件系统ext4。3、进入diskpart。一、挂载硬盘(未分区)2、确认WSL服务状态。4、选择虚拟硬盘文件。5、连接虚拟硬盘文件。

2024-12-21 20:10:54 472

原创 HEALPix C++安装

安装HEALPix C++

2024-12-21 19:36:04 405

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除