cuda编程学习

http://blog.sina.com.cn/s/blog_48b9e1f90100fm5f.html


硬件限制:

       GeForce 8800GTX每个SM有8K个寄存器,整个处理器有128K个寄存器。一个SM最多有768个线程。如果要达到这个线程最大数,每个线程只能用8K/768=10个寄存器。如果每个线程要用11个寄存器,那么线程数就会减少。例如,如果一个block有256个线程,那么每个SM中只有1/3的线程同时存在。

       共享内存也会限制线程数目。在GeForce 8800 GTX中,每个SM有16K bytes大小的共享内存。而共享内存是block使用的。每个SM最多有8个block,所以,如果一个SM中有8个block,那么每个block最多能够使用2K字节的共享内存。以矩阵乘为例,若tile大小为16*16,那么,每个block需要16*16*4=1K字节存储Mds,需要1K字节存储Nds。因此,一个block需要2K字节的共享内存。根据共享内存16K 字节的限制,最多有8个block可以同时存在于一个SM中,这也是硬件限制上的最大block数目了。若tile size是32*32,那么每个block需要8K 字节共享内存,那么一个SM只能有2个block。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zlingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值