- 博客(0)
- 资源 (6)
- 收藏
- 关注
《GPU高性能计算之CUDA》实例
《GPU高性能计算之CUDA》实例。
GPU高性能计算系列丛书的第一本《GPU高性能计算之CUDA》已经出版,由张舒,褚艳利,赵开勇,张钰勃所编写。本书除了详细介绍了CUDA的软硬件架构以及C for CUDA程序开发和优化的策略外,还包含有大量的实例供读者学习参考用。
下表是各个实例的介绍列表。
文件夹
对应书中章节
备注
ACsearch_DPPcompact_with_driver
5.2.2
AC多模式匹配算法
asyncAPI
2.5
异步API调用示例
bandwidthTest
2.3.6
带宽测试
Bitonic
5.1.1
双调排序网络
conjugateGradient
5.2.1
共轭梯度算法,CUBLAS实现
cudaMPI
2.7.3
CUDA+MPI管理GPU集群
cudaOpenMP
2.7.2
CUDA+OpenMP管理多GPU
deviceQuery
2.1.4
设备查询
histKernel
2.4.3
亮度直方图统计
matrixAssign
2.1.4
矩阵赋值
matrixMul
4.7.1
矩阵乘法,利用shared memory
matrixMul_Berkeley
4.7.1
矩阵乘法,利用register
reduction
4.7.2
并行归约(缩减)程序
scan
5.1.2
Scan算法,例如计算前缀和
scanLargeArray
5.1.2
Scan算法,可以处理大数组
simpleCUBLAS
5.1.3
CUBLAS库的简单应用
simpleCUFFT
5.1.4
CUFFT库的简单应用
simpleD3D9
2.6.2
CUDA与Direct3D 9互操作
simpleD3D10
2.6.2
CUDA与Direct3D10互操作
simpleGL
2.6.1
CUDA与OpenGL互操作
simpleMultiGPU
2.7.1
多设备控制
simpleStreams
2.5.2
流的使用演示
simpleTexture
2.3.8
简单的纹理使用
simpleTextureDrv
2.3.8
简单的纹理使用,驱动API 实现
sortingNetworks
5.1.1
双调排序网络,处理大数组
threadMigration
2.7.1
通过上下文管理和设备管理功能实现多设备并行计算
timing
4.2.1
设备端测时
transpose
4.7.3
矩阵转置
transposeDiagonal
4.7.3
矩阵转置,考虑partition conflict
VectorAdd
2.2.3/2.3.4
矢量加
VectorAddDrv
2.2.3/2.3.4
矢量加,驱动API实现
【备注】以上工程,均在Windows XP 64-bit + Tesla C1060 + CUDA 2.3 + VS2005环境下测试通过。
2009-10-19
GCC中文手册CHM版
GCC中文手册CHM版
本手册页内容摘自GNU C编译器的完整文档,仅限于解释选项的含义. 如果需要完整和最新的文档,请查阅Info文件`gcc'或Using and Porting GNU CC (for version 2.0) (使用和移植GNU CC 2.0) 手册.二者均来自Texinfo原文件 gcc.texinfo.
2009-10-19
CUDA编程模型(入门)
CUDA编程模型:
GPU与CPU的差异
GeForce 8800的主要技术参数
GF8800的存储层次结构
CUDA编程模型
CUDA工具链
CUDA存储器分配
示范代码
2009-09-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人