
显卡运算
文章平均质量分 68
hhko12322
无耐无耐无耐啊
展开
-
操作系统如何使用显卡
显卡:API 当某一个应用程序提出一个制图请求时,这个请求首先要被送到操作系统中(这里我们以Windows操作系统为例),然后通过GDI(图形设备接口)和DCI(显示控制接口)对所要使用得函数进行选择。而现在这些工作基本由DirectX来进行,它远远超过DCI的控制功能,而且还加入了3D图形API(应用程序接口)和Direct3D。显卡驱动程序判断有那些函数是可以被显卡芯片集运算,可原创 2013-03-08 09:19:09 · 1072 阅读 · 0 评论 -
CUDA 中__threadfence()的含义与理解
在CUDA里面,不同线程间的数据读写会彼此影响,这种影响的作用效果根据不同的线程组织单位和不同的读写对象是不同。在不考虑2.x的优化的情况下,(1)在同一个warp内的线程读写shared/global, 读写global和shared是立刻对本warp内的其他线程立刻可见的。(2)在同一个block内的不同warp内线程读写shared/global, 这原创 2013-09-08 10:53:01 · 2691 阅读 · 0 评论 -
CUDA中的一些概念和提示
1.在用vs运行cuda的一些例子时,在编译阶段会报出很多警告: warning C4819 ...... 解决这个警告的方法是打开出现warning的文件,Ctrl+A全选,然后在文件菜单:file->Advanced save options,在弹出的选项中选择新的编码方式为:UNICODE- codepage 1200 ,点确定后重新编译。 为什么会出现这个警告原创 2013-09-11 12:57:37 · 877 阅读 · 0 评论 -
台式机集成显卡与独立显卡一起工作!!
要试一试CUDA,可是有个疑问就是,若将独立显卡用作CUDA,那显示谁来做呢?答案是,该显卡会一边做CUDA,一边做屏幕显示的。这样自然会让CUDA的性能下降,而且有个5s的限制(这个可以搜索一下得知)。 我是用台式机做CUDA的,一般的台式机主板上都会有个集成显卡,尤其是到现在intel的i系列都在cpu里面集成了gpu。所以如果仅仅使用独立显卡,那集成显卡都拜拜浪费在那原创 2013-09-05 16:12:18 · 30379 阅读 · 1 评论 -
CUDA TEXTURE MEMORY
Part.1 簡介在執行 CUDA 程式前,都要把資料先從 Host 的記憶體,複製一份到 device 的記憶體中;一般來說,這樣的部分,都是使用 device 的global memory 來直接進行存取。不過實際上,有的時候還有別的選擇的~在《nVidia CUDA 簡介》中一文就有提到,除了global memory 外,還可以透過 constant memory 或 te转载 2013-09-25 10:40:55 · 1256 阅读 · 0 评论 -
CUDA :CUDA Array
Part.3 CUDA Array在 CUDA Texture 文章的第一篇大概講了一下 texture 在 CUDA 裡的基本概念,而第二篇則是講了 linear memory 的 texture,接下來,自然就是 CUDA Array 的 texture 了~ CUDA Array CUDA array 在 cuda 中是一個特殊的資料型別,叫做 cud转载 2013-09-25 10:47:34 · 3586 阅读 · 0 评论 -
cuda Linear Memory
Part.2 Linear Memory在前一篇已經大概介紹過 texture 的基本概念了,在這一篇,就來大概看一下,一般使用 linear memory 的 texture 的方法吧。 在宣告的部分,前面已經提過了,大致上就是:texture texRef;复制代码的形式。這樣,就可以宣告出一個一維的整數 texture 了;而由於他的讀取模转载 2013-09-25 10:45:25 · 871 阅读 · 0 评论 -
CUDA 优化的一些措施
一 在存储器方面的优化 1.主机的内存分配 为了防止程序中分配的内存为分页内存,有被置换出内存条的可能,可以调用cudaAllocHost函数来创建主机内存为非分页内存。这样在从主机至设备,设备至主机的内存复制操作时,可以大幅减小操作耗时,但是有个劣势是非分页内存始终占据内存条空间。 2.gpu上,原创 2013-09-26 13:14:33 · 1120 阅读 · 0 评论 -
cuda的一些注意和疑问
Grid 和Block维度的设计 1 首先,每个Block的线程数量不能超过512个。而且尽量让线程数是32的整数倍(warp内线程数量的整数倍)。 __global__ void kernalfunction(...) 在主程序中如此调用内核函数一定会在运行中出错(编译检测不出来)原创 2013-09-26 13:44:14 · 1248 阅读 · 0 评论