CUDA 并行编程学习
文章平均质量分 79
Ria_Ria
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Udacity cs344Unit 1-Introduction to Parallel Programming笔记(超详细,CUDA,并行,GPU
0.课程简介:要学并行思维,是最重要的,当在别的领域遇到瓶颈时,并行思维也许能帮上忙课程链接:点我Unit 11.举例,怎么能更快的从美国挖洞到中国解决方案a.用一个铲子,从每2秒挖一下,变成每1秒挖一下,有上限,太快铲子会断(提高处理器的时钟频率,会增加能耗,每个芯片能耗都有上限)b.用有两个铲子头的铲子,但是有工艺的限制,不能有100个铲子头(每个时钟周期进行更...原创 2018-06-04 20:40:26 · 1663 阅读 · 1 评论 -
Udacity cs344Unit 2-Introduction to Parallel Programming笔记(超详细,CUDA,并行,GPU)
1.通信 2.通信的不同类型以及并行计算中,不同的通信模型(about how to map tasks(which are threads in cuda) and meory together)通信的模式叫做映射(communication pattern is called map)有在黄格子里的每个元素,你将对每个元素进行同样的函数或者计算任务这是一个线...原创 2018-06-06 08:53:42 · 942 阅读 · 0 评论 -
Udacity cs344Unit 3-Introduction to Parallel Programming笔记(超详细,CUDA,并行,GPU)
1.课程目标如何分析GPU算法的速度和效率(speed and efficiency)三个新的基本算法:归约,扫描和直方图(reduce,scan and histogram)2. 3.再看之前讲的例子考虑两件事 介绍几个概念a.步骤(step):指的是 单人!完成某特定计算(比如挖洞)所需时间b.工作总量(total amount of wor...原创 2018-06-17 21:00:02 · 857 阅读 · 1 评论 -
Udacity cs344Unit 4-Introduction to Parallel Programming笔记(超详细,CUDA,并行,GPU)
1.啥是紧密(compact):这里的压缩指的是过滤,filter,过滤出一个子集,也就是只留我们想要的(比如一把扑克牌里的方片)(只计算我们关心的对象才更有意义,计算代价较小,需要更少空间)2.3.密集运算好一点?为啥第一个稀疏运算要启动52个线程,而其中39个线程都是空的(线程成本较高)第二个虽然过滤出方片会有成本,但是在接下来的映射步骤中它只启动13个...原创 2018-07-20 17:06:11 · 564 阅读 · 0 评论 -
Udacity cs344Unit 5-Introduction to Parallel Programming笔记(超详细,CUDA,并行,GPU)
1.优化的等级2.应该有一个系统化的优化过程(类似于一个优化的周期,缺少哪一步效果都不好)在真实数据集上跑很重要不要“真空”优化别忘了思考你到底想实现啥和在现实世界中执行收到反馈3.具体过程a.分析4.强缩放和弱缩放...原创 2018-07-29 22:18:40 · 651 阅读 · 0 评论 -
CUDA进阶(二)
1.又看了一遍《GPU高性能编程CUDA实战》前三章顺利实现没有问题2.第四章,先是从网上找了Julia程序要用的头文件然后发现提示错误glut64.lib没有开始在网上找啊找找到了http://pan.baidu.com/s/1skEaGjj pu9y安上以后又提示我glut64.dll没有于是找方法看应该把这东西放在哪里,后来发现C:\Window...原创 2019-01-17 19:51:54 · 494 阅读 · 0 评论 -
CUDA进阶(三)
第五章,共享内存和线程同步1.在有线程对内存进行写的时候,要确保另外线程如果读数据,不会产生竞态关系有一个办法是在有写操作时候就进行强制线程同步这样可以保证程序的正确性但是有得必有失__syncthreads();默认机制是要操作所有的线程,也就是说要所有的线程都执行了这个函数,才会往下执行所以这玩意不能放在条件分支语句里共享内存特别适合做汇总计算(就是block中...原创 2019-01-20 21:16:44 · 315 阅读 · 0 评论 -
CUDA进阶(一)
1.硬件和软件术语的对应硬件 软件 1.1 SP 1.2 thread 1.3 SM 1.4 blocks(很多block构成一个SM) 1.5device 1.6 Grid 1.1SP是最基本的处理单元,指令和任务最后都是在这里处理, 并行说的也是很多个SP(线程)同时进行1.2一个SP会执行一个thread,一个thread里...原创 2019-01-15 22:38:26 · 377 阅读 · 0 评论
分享