nvidia 发布了cuda3.2 发布候选版

本次更新包括了针对GPU加速的稀疏矩阵库cusparse、随机数生成库curand等在内的多个组件。针对费米架构的GPU,cufft进行了转换尺寸的优化,cublas在矩阵相乘和转置方面性能提升显著。此外,还新增了对6GB显存的支持,并且实现了内核中的malloc()和free()功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    已注册的开发者可以到 http://partners.nvidia.com  或  http://nvdeveloper.nvidia.com上下载
    主要更新:
    cusparse一个GPU加速的稀疏矩阵库
    curand一个GPU加速的随机数生成库,支持 Sobol quasi-random 枚 XORWOW 伪随机数
    设备端代码和主机端代码:
    cufft为在费米架构上基数是3,5,7的转换尺寸做了优化
    对于费米架构的GPU,cublas中矩阵相乘和转置性能提升了50%-300%
    以前SDK提供的H.264编/解码现在是cuda工具包的一部分
    cuda驱动和运行时:
    支持6GB的显存
    支持显存超过4GB的GPU的调试
    标准的windows驱动包集成了TCC(特斯拉计算集群)支持
   
    其它:
    支持内核中的malloc()和free()
    英伟达系统管理接口(nvidia-smi)支持报告工作GPU的百分比和许多性能计数器

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22785983/viewspace-674252/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/22785983/viewspace-674252/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值