__device__ 标记的函数从一个在器件中执行的函数呼叫,在器件中执行
__global__ 表示该函数从一个在主机中执行的函数呼叫,在器件中执行
__host__表示在主机中呼叫,在主机中执行的函数
https://blog.youkuaiyun.com/qq_30263737/article/details/81177881
CUDA: 不要在一个.cpp文件中声明kernel(即以_global_和_device_的函数)
https://blog.youkuaiyun.com/a130737/article/details/44159187