
cuda
文章平均质量分 67
ElegantIce
势不可当
展开
-
__device__ __global____host__ 分别表示什么
__device__ 标记的函数从一个在器件中执行的函数呼叫,在器件中执行 __global__ 表示该函数从一个在主机中执行的函数呼叫,在器件中执行__host__表示在主机中呼叫,在主机中执行的函数转载 2015-03-16 18:18:44 · 2505 阅读 · 0 评论 -
看cuda初级教程视频笔记-GPU体系架构概述
GPU是一个异构的多处理器芯片,为从图形图像处理优化shader core 是个渲染器work Distributer是个管理器Execute shader执行单元就是一个完整的小处理器,有自己的取值译码单元,alu处理核心和执行上下文CPU-style cores多了个很大数据缓存,out of order控制逻辑,分支预测,存储器的控制单元,但是这些却花了绝大部分的芯片面积和价原创 2015-03-17 16:00:32 · 1210 阅读 · 0 评论 -
看cuda初级教程视频笔记(周斌讲的)--CUDA、GPU编程模型
主要内容:cpu和gpu互动模式,gpu线程组织模型(不停强化),gpu存储模型,基本的编程问题cpu-gpu交互有各自的物理内存空间,通过PCIE总线互连8GB/s~16GB/s,交互开销很大原创 2015-03-17 18:51:09 · 4234 阅读 · 0 评论 -
绘制julia集的曲线--GPU高性能编程CUDA实战4.2.2
#include "../common/book.h"#include "../common/cpu_bitmap.h"//自学的一个CUDA比较有趣的编程,我也来写写注释#define DIM 1000struct cuComplex { float r; float i;//这里的话就是原来少些了个__device__,这是结构体的构造函数,在julia()里使原创 2015-03-28 21:22:26 · 2704 阅读 · 6 评论 -
看cuda初级教程视频笔记(周斌讲的)--CUDA编程1
01年开始,研究人员把GPU当做数据并行协处理器(GPGPU)07年,英伟达发布CUDA (Compute Uniform Device Architecture)统一计算设备架构08年,OpenCL规范,使得并行计算可以扩展到更多设备平台上去CUDA的一些信息(线程嘛)层次化线程集合A hierarchy of thread groups,共享储存Shared memories,原创 2015-03-17 19:09:19 · 3701 阅读 · 0 评论 -
绘制波浪线--GPU高性能编程CUDA实战5.2.2
哎呀其实我想一点点的写我的注释粘贴代码的,但是确实很麻烦,我说这里的编辑器让我不舒服,哈哈#include "cuda.h"#include "../common/book.h"#include "../common/cpu_anim.h"//DIM定义的是像素,这里是512*512大小的图像#define DIM 512//没见到PI在哪里用上了#define PI 3.1415926535原创 2015-03-30 14:59:29 · 1244 阅读 · 0 评论 -
点积运算--GPU高性能编程CUDA实战5.3
这里用点积运算例子是在讲线程协作的 __syncthread();表示对线程块里的线程进行同步的,对于线程块之间的没有关系的。在线程块内所有的线程必须同时停到这个地方等待,等到所有的线程都运行到这里的时候,再一起运行下一步。这样做的目的是因为某个线程要用到别的线程的计算之后的结果,如果不设置__syncthread();将会计算出错误的结果。这个中文名叫栅栏。刚才提到了用到别的线程的计算结果,原创 2015-03-31 12:52:18 · 1143 阅读 · 0 评论 -
基于共享内存的位图——GPU高性能编程CUDA实战5.3.3
当对一个线程块里的线程数据进行同时输出的时候,这个实验室输出了一个图像,需要进行同步操作,否则在输出的图像的时候会出现错误,原因是线程里的数据肯定是不对的,或者是还没有写进去就已经输出出来,共享内存里的数据有些是之前没有修改前的数据那么来看一看代码,之前有在别的博客里写过的就不再写了。虽然我学习的进度有点慢,还是要抓紧时间的#include "cuda.h"#include "..原创 2015-04-01 22:14:42 · 1400 阅读 · 1 评论