
高性能计算
夏天7788
知行合一
展开
-
Nsight调试断点不停
不过刚开始我装好nsight发现我自己的项目无法调试,断点没用,但是运行nsight例子程序却没问题,发现原来是使用的CUDA runtime版本不对,我的工程建的是5.0版本,而nsight目前只支持4.0,4.1,4.2吧,于是只好重新建立工程。所以如果你装nsight之前已经装过高版本的CUDA toolkit, 可要注意一下。build customizatio原创 2016-01-25 10:31:05 · 1103 阅读 · 0 评论 -
cpp文件调用CUDA .cu文件实现显卡加速相关编程
http://blog.youkuaiyun.com/meandmyself/article/details/47029493入门cuda遇到的不错点拨文,故转载如下:本篇文章谈的是cpp文件如何调用CUDA的.cu文件实现显卡加速的相关编程。当然,这是在默认已经配置好CUDA的情况下进行的,如果对于如何配置CUDA还有疑问可以看之前写的这一篇文章。另外,现在CUDA已经放出了支持VS转载 2016-08-04 11:56:30 · 1358 阅读 · 0 评论 -
Nsight3.0 支持 GPU 调试
Nsight3.0Visual Studio 2008 or Visual Studio 2010.Support for the CUDA 5.0 Toolkitthe new Kepler™ GK110 architecture found in Tesla® K20 & GeForce GTX TITAN, and CUDA® 5.0Nsight4.7原创 2016-01-25 16:01:23 · 454 阅读 · 0 评论 -
程序优化之并行OpenMP
参考:http://wenku.baidu.com/view/43bce57f27284b73f2425092.htmlhttp://blog.sina.com.cn/s/blog_6ec5c2d00100uli0.htmlhttp://blog.sina.com.cn/s/blog_641eb92b0100hd2x.html1. OpenMP编程环境建立:project->confi转载 2016-01-26 18:18:32 · 689 阅读 · 0 评论 -
还可以使用OpenMP
还可以使用OpenMP来实现程序的并行运算原创 2016-07-20 15:25:31 · 401 阅读 · 0 评论 -
CUDA编程入门资料
1. 深入浅出CUDA编程:http://wenku.baidu.com/link?url=8FakHkxu3YRYS5lfpqvNOHkkEWSsEWEBg-3QSu3H_qhDdN-Dct3Ou0jAAO_M_gE-EyLzTBA2-9sbYgcunzWQv4s9Yv_vjSGGlrOi2BTo4EKhttp://blog.youkuaiyun.com/yanghangjun/article/de原创 2016-01-25 10:35:13 · 474 阅读 · 0 评论 -
CUDA 安装问题解决
1. 问题:在win8下安装了最新的cuda5.5,新建了一个工程,尝试编译的时候失败了,错误信息如下:1> Compiling CUDA source file kernel.cu...1> 1> C:\Users\某某\Documents\Visual Studio 2012\Projects\matrixAssign\matrixAssign>"C:\Program原创 2016-01-25 10:36:20 · 6324 阅读 · 1 评论 -
如何使用CUDA达到加速程序
from:http://www.cnblogs.com/viviman/archive/2012/11/28/2792521.html1 block内的thread我们是都饱和使用吗?答:不要,一般来说,我们开128或256个线程,二维的话就是16*16。2 grid内一般用几个block呢?答:牛人告诉我,一般来说是你的流处理器的4倍以上,这样效率最高。转载 2016-01-25 10:34:21 · 3847 阅读 · 0 评论 -
CUDA计时
from:http://blog.sina.com.cn/s/blog_45209f340101341e.html使用cutil.h中的函数unsigned int timer=0;//创建计时器cutCreateTimer(&timer);//开始计时cutStartTimer(timer);{ //统计的代码段 …………}//停止计时转载 2016-01-25 10:33:28 · 358 阅读 · 0 评论 -
关于SSE指令集
1. 一般来讲,所有SSE指令函数都有3个部分组成,中间用下划线隔开: _mm_set_ps1 mm表示多媒体扩展指令集 set表示此函数的含义缩写 ps1表示该函数对结果变量的影响,由两个字母组成,第一个字母表示对结果变量的影响方式,p表示把结果作为指向一组数据的指针,每一个元素都将参与运算,S表示只将结果变量中的第一个元素参与运算;第二个字母表示参与运算原创 2016-01-25 10:32:38 · 989 阅读 · 0 评论 -
CUDA配置
1. 右键project->Build costomization->CUDA7.5 之后Properties会出现CUDA C/C++2. .cu文件右键propertied,General->Item Type->CUDA C/C++, 之后Properties会出现CUDA C/C++原创 2016-01-25 10:31:52 · 449 阅读 · 0 评论 -
高性能计算:基础线性代数子程序CBLAS
CBLAS是BLAS的C语言接口。BLAS的全称是Basic Linear Algebra Subprograms,中文大概可以叫做基础线性代数子程序。主要是用于向量和矩阵计算的高性能数学库。本身BLAS是用Fortran写的,为了方便 C/C++程序的使用,就有了BLAS的C接口库CBLAS。BLAS的主页是http://www.netlib.org/blas/,CBLAS的下 载地址也可以原创 2016-01-25 16:09:08 · 980 阅读 · 0 评论