1 转载
https://blog.youkuaiyun.com/qq_24990189/article/details/89553895
2 归约算法
(基本思想:对一输入数组执行某种计算,然后产生一个更小的结果数组。。每个Thread将cache[]中的两个值相加起来,然后将结果保存回cache[]。由于每个Thread都将两个值合并为一个值,那么在完成这个步骤后,得到的结果数量就是计算开始时数值数量的一半。在下一个步骤中,我们对这一半数值执行相同的操作。在将这种操作执行log2(threadsPerBlock)个步骤后,就能能得到cache[]中所有值的综合。
3 问题:为什么只有cacheIndex==0的线程执行这个保存操作?
4 问题:为什么在尚未计算完成之前就返回到主机?
5 问题:32个Block,并且每个Block包含256个线程,那么是否会造成线程过多的情况?
6 问题:对__syncthreads的进一步研究