CUDA 程序运行时CPU 100%的问题有点让人头痛,在实验过程中调用了kernel函数后,再调用cudaMemcpyAsync,但发现在还有会到block在这个所谓的async api,strace 跟了一下,发现99.999%都是
clock_gettime(CLOCK_MONOTONIC_RAW, {2461, 485666623}) = 0
于是实然有了一个灵感,为什么我不写一个和它相似的poll函数,只不过我是每隔1分钟轮询一次,这样就可以把CPU的使用率降下来了
kernel<<< dimGrid, dimBlock >>>(d_result_next_idx);
_err = cudaGetLastError();
if(cudaSuccess == _err) {
low_cpu_usage_poll(qihao);
void low_cpu_usage_poll(int qihao)
{
int min = 0;
bool ready = false;
while (1) {
sleep(60); // second
ready = cudaSuccess==cudaStreamQuery(0);
printf("low_cpu_usage_poll: %4d min, cudaStreamQuery: %s\n",
++min, ready ? "cudaSuccess" : "cudaErrorNotReady???");
if (ready) {
callback(qihao);

CUDA程序运行时遇到CPU利用率100%的问题,通过分析发现cudaMemcpyAsync等API会导致阻塞。为解决此问题,提出了创建一个每1分钟轮询一次的low_cpu_usage_poll函数,用于在kernel函数后代替cudaXXXX函数,将后续处理放在回调函数中,降低CPU使用率。
最低0.47元/天 解锁文章

1228

被折叠的 条评论
为什么被折叠?



