
GPU
csshuke
这个作者很懒,什么都没留下…
展开
-
CUDA系列学习(一)An Introduction to GPU and CUDA
版权声明:本文为博主原创文章,未经博主允许不得转载。本文从软硬件层面讲一下CUDA的结构,应用,逻辑和接口。分为以下章节:(一)、GPU与CPU(二)、CUDA硬件层面(三)、CUDA安装(四)、CUDA 结构与接口 4.1 Kernels 4.2 Thread,Block, Grid转载 2017-07-24 00:53:25 · 260 阅读 · 0 评论 -
一个程序来比较cuda/c在GPU/CPU的运行效率
在网上看了一个比较GPU和CPU执行矩阵运算效率的帖子,亲自跑了一下。这是一个CUDA语言程序,请保存为“文件名.cu”。我的主机配置如下:CPU:G2030;内存8GB;显卡:GTX750ti。代码如下所示:#include "cuda_runtime.h"#include "device_launch_parameters.h"#include #include原创 2017-08-01 02:54:00 · 7246 阅读 · 3 评论 -
查询GPU是否支持CUDA
版权声明:本文为博主原创文章,未经博主允许不得转载。登陆网址,https://developer.nvidia.com/cuda-gpus选择对应的显卡系列,即可查看你的GPU显卡是否支持CUDA转载 2017-07-28 18:07:27 · 2501 阅读 · 0 评论 -
GPU与CPU版本的矩阵乘法对比
由于刚刚开始学习Cuda,还没有整理出一个完整的Cuda类,只是在Nvidia提供的kenerl架构上做修改。 但用于初体验GPU给我们带来的好处也绰绰有余了。 直接贴代码:/* 矩阵乘法,CPU版本和GPU版本的对比*/#include "cuda_runtime.h"#include "device_launch_parameters.h"#inc转载 2017-08-04 04:55:26 · 1518 阅读 · 0 评论 -
详解CUDA核函数及运行时参数
版权声明:本文为博主原创文章,未经博主允许不得转载。核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下: __global__ void kernel(param list){ }核函数只能在主机端调用,调用时必须申明执行参数。调用形式如下:转载 2017-08-04 03:06:45 · 752 阅读 · 0 评论 -
C++、python、CUDA性能分析--矩阵乘法
前言矩阵乘法非常适合在GPU上并行运行,但是使用GPU并行后能获得多大的性能提升?本文将通过一些实验分析CUDA程序的性能。测试环境本文使用Dell XPS 8700作为测试机,相关配置如下:型号Dell XPS 8700CPUIntel Core i7-4970 3.6GHz主存16GBGPUGeForce GTX原创 2017-08-01 03:41:24 · 2954 阅读 · 0 评论 -
双剑合璧:CPU+GPU异构计算完全解析
并行计算:让处理的速度变得更快 相对于串行计算,并行计算可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算,当前研究的主要是空间的并行问题。以程序和算法设计人员的角度看,并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务,处理起来比任务并行简单。并行计算,解放不堪重负的处理器 空间上的并行导致两类并转载 2017-07-24 01:10:27 · 6287 阅读 · 0 评论 -
CUDA从入门到精通
CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择。还有不到一年毕业,怕是毕业后这些技术也就随毕业而去,准备这个暑假开辟一个CUDA专栏,从入门到精通,步步为营,顺便分享设计的一些经验教训,希望能给学转载 2017-07-24 01:08:08 · 399 阅读 · 0 评论 -
CUDA系列学习(五)GPU基础算法: Reduce, Scan, Histogram
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常用,我们在本文中分别就其功能用处,串行与并行实现进行阐述。 ———-转载 2017-07-24 00:59:26 · 950 阅读 · 0 评论 -
CUDA系列学习(四)Parallel Task类型 与 Memory Allocation
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]本文为CUDA系列学习第四讲,首先介绍了Parallel communication patterns的几种形式(map, gather, scatter, stencil, transpose), 然后复习了cuda memory model并从high level上分析怎样写出高效代转载 2017-07-24 00:58:20 · 477 阅读 · 0 评论 -
CUDA系列学习(三)GPU设计与结构QA & coding练习
版权声明:本文为博主原创文章,未经博主允许不得转载。啥?你把CUDA系列学习(一),(二)都看完了还不知道為什麼要用GPU提速? 是啊。。经微博上的反馈我默默感觉到提出这样问题的小伙伴不在少数,但是更多小伙伴应该是看了(一)就感觉离自己太远所以赶紧撤粉跑掉了。。。都怪我没有写CUDA系列学习(零)。。。那么,这一章就补上这一块,通过一堆Q&A进行讲解,并辅助coding练习,希转载 2017-07-24 00:56:50 · 304 阅读 · 0 评论 -
CUDA系列学习(二)CUDA memory & variables - different memory and variable types
版权声明:本文为博主原创文章,未经博主允许不得转载。本文来介绍CUDA的memory和变量存放,分为以下章节:(一)、CPU Memory 结构(二)、GPU Memory结构(三)、CUDA Context(四)、kernel设计(五)、变量 & Memory 5.1 global arrays转载 2017-07-24 00:55:37 · 473 阅读 · 0 评论 -
浅析GPU计算——cuda编程
https://blog.youkuaiyun.com/breaksoftware/article/details/79302590转载 2018-10-17 16:33:44 · 200 阅读 · 0 评论