计算机视觉基于CUDA编程的入门与实践线程及同步二

坐望云起

已于 2022-12-28 21:05:47 修改

阅读量687

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习从入门到精通文章标签： c++ cuda 并行处理 NVIDIA 纹理内存

于 2022-12-27 17:58:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bashendixie5/article/details/128459346

深度学习从入门到精通专栏收录该内容

797 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了GPU的存储器架构，包括全局内存、本地内存、寄存器堆、常量内存和纹理内存。全局内存可供所有块读写，但速度较慢。寄存器是最快的存储器，而本地内存作为寄存器溢出的补充。常量内存用于存储只读数据，纹理内存则针对特定访问模式提供加速。通过对这些内存类型的深入理解，可以优化CUDA程序的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、存储器架构

在GPU上的代码执行被划分为流多处理器、块和线程。GPU有几个不同的存储器空间，每个存储器空间都有特定的特征和用途以及不同的速度和范围。这个存储空间按层次结构划分为不同的组块，比如全局内存、共享内存、本地内存、常量内存和纹理内存，每个组块都可以从程序中的不同点访问。

GPU有一级和二级缓存（即L1缓存和L2缓存）。常量内存则是用于存储常量和内核参数之类的只读数据。最后，存在纹理内存，这种内存可以利用各种2D和3D的访问模式。

二、全局内存

所有的块都可以对全局内存进行读写。该存储器较慢，但是可以从你的代码的任何地方进行读写。缓存可加速对全局内存的访问。所有通过cudaMalloc分配的存储器都是全局内存。

使用全局内存示例

#include <stdio.h>
#define N 5

__global__ void gpu_global_memo

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坐望云起 如果觉得有用，请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。