高性能计算
文章平均质量分 89
高性能计算HPC
gpu硬件原理
cuda编程
gpu性能优化
self-motivation
专注LINUX系统与性能分析优化
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
cuda编程 --------- warp 级别规约指令 __shfl_xor_sync
_shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令(shuffle instruction),用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值,而无需通过共享内存或全局内存。这样可以实现高效的线程间通信,并减少共享内存的使用。具体来说,__shfl_xor_sync 通过按位异或(XOR)操作来确定目标线程的索引。每个线程都可以从与自身线程索引按位异或一个特定值(称为掩码)的线程中获取数据。原创 2025-12-07 19:42:22 · 53 阅读 · 0 评论 -
CUDA性能优化 ---- 通过矢量化内存访问提高性能
使用矢量化加载可以减少指令总数,降低延迟,并提高带宽利用率.使用矢量化加载的最简单方法是使用CUDA C++标准头文件中定义的矢量数据类型,如int2、int4或float2、float4.这些类型表示打包在一个数据单元中的多个值。您可以通过C++中的类型转换轻松使用这些类型.例如,在C++中,你可以使用reinterpret_cast<int2*>(d_in)将int指针d_in重写为int2指针,该指针将一对“int”值视为一个单元。您还可以使用结构生成矢量化加载,只要该结构的大小是两个字节的幂。原创 2025-09-20 21:06:46 · 288 阅读 · 0 评论 -
评估训练模型所需的算力
10亿参数模型:需约1-10 PetaFLOP/s-days(等效1万亿次浮点运算持续1天)千亿参数(如GPT-3):约3,000-5,000 PetaFLOP/s-days万亿参数模型:超过50,000 PetaFLOP/s-days。原创 2025-01-29 15:17:48 · 1354 阅读 · 0 评论 -
了解cuda的统一内存
在CUDA 6中,从Kepler GPU架构(计算能力3.0或更高)开始,在64位Windows 7、8和Linux操作系统(内核2.6.18+)上开始支持统一内存.从CUDA 6开始,NVIDIA推出了CUDA平台历史上最引人注目的编程模型改进之一 ----统一内存。在当今典型的PC或集群节点中,CPU和GPU的内存在物理上是不同的,并由PCI Express总线分隔。在CUDA 6之前,程序员必须这样看待事物。CPU和GPU之间共享的数据必须在两个内存中分配,并由程序在它们之间明确复制。原创 2024-12-21 18:51:37 · 1013 阅读 · 0 评论 -
gpu硬件架构
NVIDIA在视觉计算和人工智能(AI)领域处于领先地位;其旗舰GPU已成为解决包括高性能计算和人工智能在内的各个领域复杂计算挑战所不可或缺的。虽然它们的规格经常被讨论,但很难掌握各种组件的清晰完整的图景。这些GPU的高性能源于其许多组件的无缝集成,每个组件在提供顶级结果方面都发挥着至关重要的作用。本篇文章将对NVIDIA GPU的每个组件进行详细的介绍,从架构和图形处理集群(GPC)到单个核心。另外还有确保高效数据访问的复杂内存层次结构。原创 2024-12-14 23:28:04 · 1254 阅读 · 0 评论
分享