YYRAN_ZZU-优快云博客

原创 CUDA调整指令级原语

为了确保跨平台计算的一致性，IEEE–754定义了32位和64位浮点格式，分别对应C语言的float和double。

2024-12-11 23:00:07 203

原创 CUDA的流和并发

CUDA流是一系列异步的CUDA操作(按照主机代码确定的顺序在设备上执行)，流封装这些操作，保持操作的顺序，允许操作在流中排队，并使它们在先前的所有操作之后执行，并且可以查询排队操作的状态。从软件的角度开看，CUDA操作在不同的流中并发运行，从硬件上看，不一定总是如此。根据PCIe总线争用或每个SM资源的可用性，完成不同的CUDA流可能仍然需要互相等待。

2024-12-07 19:34:53 1320

原创 CUDA共享内存和常量内存

板载内存片上内存全局内存是较大的板载内存，具有较高的延迟。共享内存是较小的片上内存，具有较低的延迟，共享内存可以提供比全局内存高得多的带宽。块内线程通信的通道用于全局内存数据的可编程管理的缓存高速暂存存储器，用于转换数据以优化全局内存访问模式。

2024-11-24 10:45:00 1100

原创 CUDA全局内存模型

CUDA内存模型提出了多种可编程内存的模型

2024-11-06 21:40:53 1029

CUDA执行模型概述说明如何在制定的计算机构上指令。本节会重点介绍指令吞吐量。GPU架构是围绕着一个流式多处理器(SM)的扩展阵列搭建的。GPU中每一个SM都能支持说白格线程并发执行，每个GPU通常有多个SM。CUDA采用单指令多线程(SIMT)架构来管理和执行线程，每32个线程为一组，被称为线程束(warp)。线程束中所有线程同时执行相同的指令。每个线程都有自己的指令地址计数器和状态寄存器，利用自身的数据执行当前的指令。SIMT确保可以编写独立的线程级并行代码、标量线程以及用于协调线程数据并行代码。

2024-10-29 22:40:56 971

原创 CUDA编程模型介绍

CUDA是一种通用的并行计算平台和编程模型，在C语言基础扩展，借助于cuda可以像编写C语言一样的实现并行算法，本文主要介绍基础的编程概念和程序入门的第一个cuda程序。cuda编程模型使用C语言扩展成的代码在异构计算系统中执行应用程序，爱一个异构环境中包含多个CPU和GPU，下面介绍两个常用的专用概念词主机：CPU及其内存设备：GPU及其内存设备(kernel)-指代码在GPU上运行的代码如下图所示一般一个典型的CUDA程序实现的流程如下数据从CPU内存拷贝到GPU内存。

2024-10-26 22:44:45 1626