ysh-优快云博客

原创 CUDA编程：cudaMalloc、cudaHostAlloc和cudaMallocManaged三种方式所创建内存在主机和设备间传输速度的差异

到底CUDA里最传统的内存拷贝cudaMalloc，和显式地在主机创建内存cudaHostAlloc再开放给GPU访问，以及全局内存寻址cudaMallocManaged，这三种方式，哪种在GPU与CPU之间传输数据时，有更高的效率？为了回答这个问题，于是有了以下对上述三种方式所创建的内存，在主机与设备之间传输速度的比较代码。......

2022-07-30 10:48:15 5655 3

原创 CUDA编程： GPU与CPU之间使用全局统一内存的完整代码及编译

CUDA编程： GPU与CPU之间使用统一虚拟地址（UVA)共享内存的完整示例代码

2022-07-30 00:19:55 2211

原创快速查找计算9百万万亿整数内全部素数（质数）的C++代码

#编译测试环境：gcc version 9.2.0，在5.8.0-45-generic内核的linux试跑生成并验证了1亿以内的质数，通过以下代码查找到小于等于99999999的质数数量为5761455个，并与网上能查到的素数表，抽样检查过都是正确的。素数筛的原理啥的网上很多，就不讲了。由于计算long long型对应的最大整数9223372036854775807内的所有素质时，要用到动态数组，计算的数值越大，占用内存越大，请自行判断内存是否足够。直接贴代码：/* 功能：查找输出所有小于指

2021-04-11 11:51:25 894 4

空空如也

C++里如何把vector<bool>或vector<unsigned char>对象的数据保存到文件，以及从文件装载回内存

2021-12-06

TA创建的收藏夹 TA关注的收藏夹