
异构并行|CUDA|OpenCL|OpenMP
KayChanGeek
情愫竟短暂 犹如骚人墨客笔下的烟花 风不停留 何苦绕来摇晃灯火
展开
-
关于高性能计算(并行计算)的知识记录汇总(OpenMP、OpenCL、CUDA、TBB)
关于高性能计算的知识记录汇总 原文来自:http://blog.sina.com.cn/s/blog_6b99cdb50101inv5.html 看了这个文章,对我的知识面有了很大的补充,感谢! MPI和openMPI的区别,或者CUDA和OpenCL的区别,这篇文章就是为了总结下高性能计算的相关知识。目前高性能计算有两大趋势,并行计算集群和CP转载 2017-11-13 10:14:29 · 7100 阅读 · 0 评论 -
OpenCV中的GPU模块、CUDA加速
原文来自:http://www.cnblogs.com/dwdxdy/archive/2013/08/07/3244508.htmlCUDA基本使用方法在介绍OpenCV中GPU模块使用之前,先回顾下CUDA的一般使用方法,其基本步骤如下:1.主机代码执行;2.传输数据到GPU;3.确定grid,block大小;4.调用内核函数,GPU运行程序;5.传输结果到CPU;6.继续主转载 2017-11-10 11:05:15 · 6413 阅读 · 0 评论 -
Caffe初体验之Caffe-Windows的配置(CPU/GPU)与Mnist数据集测试
配置编译caffe-windows安装CUDA(适用GPU版本) 去英伟达下载CUDA7.5,windows10,x86_64,本地安装,如下图:下载安装CUDNN(V4 for cuda7.0或者V5 for cuda7.5)(适用GPU版本) 这个过程的话新用户需要注册,如下图:下载解压缩会得到3个文件夹:include bin lib,将这3个文件夹里面的内容合并到CUDA的安装...原创 2018-04-10 20:46:32 · 2647 阅读 · 1 评论 -
OpenCL-SVM(共享虚拟内存)实验
在体验了OpenCV-OpenCL的使用之后,发现CPU和GPU之间的数据传输相当的耗时,既然我这个小菜鸟都发现了这个瓶颈,大佬们肯定也早就发现也有一些解决方案吧!在网上看到一篇与这个有关的文章《OpenCL2.0特性之SVM》,可以先了解一下,看完之后有所收获,但也有许多疑问如下:1、SVM支持CPU和GPU之间不需要数据拷贝就可以数据共享,那这个SVM是软件实现的还是硬件实现的?如果是软件原创 2017-12-27 19:29:05 · 4593 阅读 · 4 评论 -
OpenCV2.x-OpenCL的郁闷体验
之前体验了下OpenCV3.x的OpenCL,体验简直糟糕《OpenCV3.x-OpenCL的糟糕体验》!于是今天打算用OpenCV2.x的OpenCL做一下GPU加速实验,因为2.x和3.x的编码实现不一样。实验环境:Windows10 + OpenCV249 + AMD Radeon R5 M430 实验算法:OpenCV的灰度模板匹配。为什么说是郁闷的体验呢?因为我看到了GPU的原创 2017-12-26 15:41:43 · 1076 阅读 · 0 评论 -
OpenCV3.x-OpenCL的糟糕体验
今天看到了一份ppt《OpenCV3_CVPR_2015_Speed》,看到了下面的一组数据,于是想研究研究OpenCV的OpenCL这个家伙。可以看到利用OpenCL,算法的运行速度加速明显!于是下载了opencv3.2源码并在Windows10(64bit)VS2013上进行编译,CMAKE配置如下:测试环境:Windows10(64)+AMD GPU+OpenCV原创 2017-12-20 20:57:41 · 9131 阅读 · 8 评论 -
OpenMP并行程序设计—for循环并行化详解
转载请声明出处http://blog.youkuaiyun.com/zhongkejingwang/article/details/40018735 在C/C++中使用OpenMP优化代码方便又简单,代码中需要并行处理的往往是一些比较耗时的for循环,所以重点介绍一下OpenMP中for循环的应用。个人感觉只要掌握了文中讲的这些就足够了,如果想要学习OpenMP可以到网上查查资料。 工欲善转载 2017-06-13 19:46:22 · 801 阅读 · 0 评论 -
openmp 任务调度 for schedule static dynamic guided runtime
原文来自:http://blog.youkuaiyun.com/billbliss/article/details/44131919OpenMP中,任务调度主要用于并行的for循环中,当循环中每次迭代的计算量不相等时,如果简单地给各个线程分配相同次数的迭代的话,会造成各个线程计算负载不均衡,这会使得有些线程先执行完,有些后执行完,造成某些CPU核空闲,影响程序性能。例如以下代码。[cpp]转载 2017-11-07 09:38:27 · 2571 阅读 · 0 评论 -
一步一步实现多尺度多角度的形状匹配算法(C++版本)
前言用过halcon形状匹配的都知道,这个算子贼好用,随便截一个ROI做模板就可以在搜索图像中匹配到相似的区域,并且能输出搜索图像的位置,匹配尺度,匹配角度。现在我们就要利用opencv在C++的环境下复现这个效果。我们先看下复现的效果图,提升下学习的欲望(要在搜索图像中找到所有的K字母)。下图是模板图像,为一个"K"字母。下图是待搜索的图像,其中的K字符存在旋转,缩放,残缺遮...原创 2018-11-20 20:30:57 · 22311 阅读 · 81 评论