http://blog.sina.com.cn/s/blog_48b9e1f90100fm5f.html
硬件限制:
GeForce 8800GTX每个SM有8K个寄存器,整个处理器有128K个寄存器。一个SM最多有768个线程。如果要达到这个线程最大数,每个线程只能用8K/768=10个寄存器。如果每个线程要用11个寄存器,那么线程数就会减少。例如,如果一个block有256个线程,那么每个SM中只有1/3的线程同时存在。
共享内存也会限制线程数目。在GeForce 8800 GTX中,每个SM有16K bytes大小的共享内存。而共享内存是block使用的。每个SM最多有8个block,所以,如果一个SM中有8个block,那么每个block最多能够使用2K字节的共享内存。以矩阵乘为例,若tile大小为16*16,那么,每个block需要16*16*4=1K字节存储Mds,需要1K字节存储Nds。因此,一个block需要2K字节的共享内存。根据共享内存16K 字节的限制,最多有8个block可以同时存在于一个SM中,这也是硬件限制上的最大block数目了。若tile size是32*32,那么每个block需要8K 字节共享内存,那么一个SM只能有2个block。