
CUDA学习
文章平均质量分 77
小牛蛋
关注Linux下多线程开发 并行与分布式计算 对区块链 机器学习 密码学有浓厚兴趣
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenCV环境下CUDA编程示例
在CUDA平台上对图像算法进行并行加速是目前并行计算方面比较简单易行的一种方式,而同时利用OpenCV提供的一些库函数的话,那么事情将会变得更加easy。以下是我个人采用的一种模板,这个模板是从OpenCV里的算法CUDA源码挖掘出来的,我感觉这个用起来比较傲方便,所以经常采用。首先大牛们写的源码都很鲁棒,考虑的比较全面(如大部分算法将1,3,4通道的图像同时搞定),感觉还有一个比较神奇的地方在于原创 2013-06-21 09:17:25 · 17733 阅读 · 6 评论 -
opencv gpu支持
GPU Module IntroductionOpenCV自3.0还是3.1以后命名空间由gpu::换成了cuda::General InformationThe OpenCV GPU module is a set of classes and functions to utilize GPU computational capabilities. It is implemented...原创 2018-08-04 20:32:27 · 1535 阅读 · 0 评论 -
CUDA学习笔记之随机数
#include #include #include#includeint n = 200;using namespace std;__device__ float generate( curandState* globalState, int ind ) { //int ind = threadIdx.x; curandState localState = g原创 2016-11-04 10:25:17 · 2641 阅读 · 0 评论 -
CUDA学习笔记四
Asynchronous Commands in CUDAAs described by the CUDA C Programming Guide, asynchronous commands return control to the calling host thread before the device has finished the requested task (they a原创 2016-09-23 11:21:44 · 1747 阅读 · 0 评论 -
CUDA学习笔记三
HOG行人检测算法的CUDA源码 这个版本还不是完全封装的版本 基本上还可以看懂从这个算法可以看到写CUDA程序的不易 以及很多优化技巧 #include "internal_shared.hpp"#ifndef CV_PI_F #ifndef CV_PI #define CV_PI_F 3.14159265f #else #define CV_PI_F ((flo原创 2015-08-09 22:23:30 · 3372 阅读 · 0 评论 -
CUDA学习笔记二
简单的向量加/** * Vector addition: C = A + B. * * This sample is a very basic sample that implements element by element * vector addition. It is the same as the sample illustrating Chapter 2 * o原创 2015-08-02 08:46:08 · 1233 阅读 · 0 评论 -
CUDA学习笔记一
印象中接触OpenCV差不多快四年了,与CUDA打交道也快要三年了,自己还是个菜鸟。记得写第一篇优快云博客也过去两年了,那是自己还只是“剽窃”一些别人的东西,但是现在的自己渐渐可以写一些属于自己的东西。依然记得那年暑期,导师让我去学GPU编程,我真的很高兴,因为我觉得那个东西未来一定很有用,而且我第一篇博客里的好多想法也印证了。虽然目前是个菜鸟,但是要有一颗成为大牛的心啊。一步一个脚印,take原创 2015-07-27 21:40:43 · 4607 阅读 · 2 评论 -
CUDA 全局global memory变量
标题有点绕 我想说的是使用CUDA时定义的全局__device__ unsigned char data[64];在并行化某一类算法时,发现不用每次循环都往GPU上拷贝数据,而是在初始化时,将数据拷贝到GPU上,所以定义一个全局的__device__变量,所有的计算只是为了最后将计算的结果保存到data[]中,但是问题来了,当计算完成之后,data中的值不能从GPU中拷回来,cudaM原创 2015-07-16 09:23:25 · 3632 阅读 · 0 评论 -
Centos7.1安装CUDA7.0
之前都是在Centos6下进行CUDA开发,安装和配置CUDA环境请参考另外一篇博客(Linux(redhat)CUDA安装)。因为Centos7有较大变动,所以安装CUDA过程中遇到了一些麻烦,原因初步归结于OpenGL的安装。下面详细介绍安装配置过程关闭防火墙和selinux和补充包和建立本地yum源[root@localhost ~]# systemctl stop fire原创 2015-07-26 19:37:57 · 13237 阅读 · 0 评论 -
Linux(redhat)CUDA安装
1 su2 centos 6 下,如果默认安装了 nouveau,一个第三方开源的nvidia驱动,必须将其禁用掉:gedit /etc/modprobe.d/blacklist.conf vi /etc/modprobe.d/blacklist.conf 在打开的文件最后一行添加如下代码:blacklist nouveau 使用dracut重新建立 initram原创 2015-05-05 17:21:58 · 6418 阅读 · 0 评论 -
CUDA并行编程入门
转自:http://bookc.github.io/2014/05/08/my-summery-the-book-cuda-by-example-an-introduction-to-general-purpose-gpu-programming/鉴于自己的毕设需要使用GPU CUDA这项技术,想找一本入门的教材,选择了Jason Sanders等所著的书《CUDA By Exam转载 2015-01-19 16:46:56 · 9470 阅读 · 0 评论 -
关于何时使用cudaDeviceSynchronize
转自:http://blog.youkuaiyun.com/mathgeophysics/article/details/19905935When to call cudaDeviceSynchronizewhy do we need cudaDeviceSynchronize(); in kernels with device-printf?Although转载 2015-01-19 17:48:29 · 3191 阅读 · 0 评论 -
cuda学习笔记五 cuda stream及 unified memory使用问题
cuda通过多个stream可以降低host到Device的数据传输延时,这个没问题。但是通过stream传输就需要通过cudaHostAlloc等重新分配内存,那么这时候就有一个问题,就是这个内存需要重新赋值,问题就在于很有可能这段重新赋值的时间会超出接受的范围。如果用cudaMemcpy就可以直接用原始数据往Device上传输了。 本人在实际项目中遇到的问题,印象非常...原创 2018-08-21 19:56:05 · 2152 阅读 · 1 评论