
GPU & cuda
文章平均质量分 75
张博208
知识搬运工
展开
-
CUDA Programming: An Introduction to GPU Architecture
gpu 架构转载 2024-06-01 09:22:52 · 77 阅读 · 0 评论 -
NVIDIA MPS总结
MPS多进程服务(Multi-Process Scheduling)是CUDA应用程序编程接口(API)的替代二进制兼容实现。从Kepler的GP10架构开始,NVIDIA就引入了MPS(基于软件的多进程服务),这种技术在当时实际上是称为HyperQ ,允许多个 流(stream)或者CPU的进程同时向GPU发射Kernel函数,结合为一个单一应用程序的上下文在GPU上运行,从而实现更好的GPU利用率。在单个进程的任务处理,对GPU利用率不高的情况下是非常有用的。转载 2024-02-06 10:02:34 · 766 阅读 · 0 评论 -
CUDA Thread Indexing
CUDA Thread Indexing。原创 2023-07-10 16:45:58 · 432 阅读 · 0 评论 -
Pytorch自动混合精度(AMP)训练
Pytorch自动混合精度(AMP)训练_ytusdc的博客-优快云博客_pytorch 混合精度训练转载 2022-09-01 08:32:32 · 96 阅读 · 0 评论 -
简单介绍CUDA中loop unrolling(循环展开)技术
https://blog.youkuaiyun.com/sinat_33718563/article/details/79262371原创 2020-01-21 09:54:52 · 1092 阅读 · 0 评论 -
CUDA ---- Memory Access
Memory Access Patterns大部分device一开始从global Memory获取数据,而且,大部分GPU应用表现会被带宽限制。因此最大化应用对global Memory带宽的使用时获取高性能的第一步。也就是说,global Memory的使用就没调节好,其它的优化方案也获取不到什么大效果,下面的内容会涉及到不少L1的知识,这部分了解下就好,L1在Maxwell之后就不用了,...转载 2020-01-19 17:02:44 · 649 阅读 · 0 评论