- 博客(3)
- 问答 (1)
- 收藏
- 关注
原创 CUDA编程:cudaMalloc、cudaHostAlloc和cudaMallocManaged三种方式所创建内存在主机和设备间传输速度的差异
到底CUDA里最传统的内存拷贝cudaMalloc,和显式地在主机创建内存cudaHostAlloc再开放给GPU访问,以及全局内存寻址cudaMallocManaged,这三种方式,哪种在GPU与CPU之间传输数据时,有更高的效率?为了回答这个问题,于是有了以下对上述三种方式所创建的内存,在主机与设备之间传输速度的比较代码。......
2022-07-30 10:48:15
5292
3
原创 CUDA编程: GPU与CPU之间使用全局统一内存的完整代码及编译
CUDA编程: GPU与CPU之间使用统一虚拟地址(UVA)共享内存的完整示例代码
2022-07-30 00:19:55
2034
原创 快速查找计算9百万万亿整数内全部素数(质数)的C++代码
#编译测试环境:gcc version 9.2.0,在5.8.0-45-generic内核的linux试跑生成并验证了1亿以内的质数,通过以下代码查找到小于等于99999999的质数数量为5761455个,并与网上能查到的素数表,抽样检查过都是正确的。素数筛的原理啥的网上很多,就不讲了。由于计算long long型对应的最大整数9223372036854775807内的所有素质时,要用到动态数组,计算的数值越大,占用内存越大,请自行判断内存是否足够。直接贴代码:/* 功能:查找输出所有小于指
2021-04-11 11:51:25
788
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人