每日总结
文章平均质量分 63
yodala
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Thread Execusion Efficiency
每日小结原创 2022-06-08 15:07:13 · 179 阅读 · 0 评论 -
每日总结(2022/06/01)
文本分类原创 2022-06-01 21:24:56 · 151 阅读 · 0 评论 -
每日总结(2022/05/17-)
2022/05/17-线程配置实验设备 实现2个矩阵(Width=2048, Height=1024)的相加,输入的矩阵A,B按照以下要求初始化,矩阵A的初始值全为本人学号的最后1位数字,矩阵B的初始值全为本人学号的倒数第2位数字。同时用CPU代码实现,比较两个代码的运行时间。 用二维线程结构来计算矩阵加法,每一个线程对应一个矩阵元素 线程配置 从上图得出我的计算机在每个Block有128,256,512个线程时,资源利用率最大。 int nx = 2048; int ny = 1024; dim3原创 2022-05-17 21:15:17 · 637 阅读 · 0 评论 -
CUDA进行矩阵相乘的两种方式
2022/05/16 (一)目的 掌握利用CUDA进行矩阵相乘的两种方式(全局内存和共享内存) (二)内容 完成矩阵乘法的并行程序的实现 任务描述: 考虑计算两个大规模的矩阵乘法: C=A*B。其中A的大小为1000×800,B矩阵大小为800×1200,C矩阵大小为1000×1200。矩阵初始化要求如下: (1)A矩阵的初始化:每一行第1个位置为学号最后1位,以后位置为第1个位置依次加1。例如张三同学学号:20210001123,A[0][0] =3,A[0][1] =4,A[0][2] =5… (2)B原创 2022-05-16 21:06:04 · 113 阅读 · 0 评论 -
CUDA 程序架构
2022/05/13目的内容(一)(二)(三) 目的 熟悉基本的 CUDA 程序架构以及如何调用相应的 API 进行 CUDA 编程。 内容 实现 2 个矢量(长度 50000)的相加,输入的矢量 A,B 按照以下要求初始化,矢量A的初始值全为本人学号的最后 1 位数字,矢量 B 的初始值全为本人学号的倒数第 2 位数字。同时用CPU代码实现,比较两个代码的运行时间。完成以下三个版本的 CUDA 核函数。 (一) 用每个线程来计算矢量加法的一个输出元素。 /** * Vector addition:原创 2022-05-13 22:57:27 · 93 阅读 · 0 评论
分享