weixin_271828-优快云博客

原创参加CUDA线上训练营·（三）cuda的线程层次

CUDA中的线程组织为三个层次Grid、Block、Thread。

2023-02-15 22:35:35 317

原创参加CUDA线上训练营·（二）cuda的c++编译

xmake官网。该编译器安装方便，上手快，支持c++，cuda，Qt，iOS等语言和项目的编译，我在进行简单的模块开发时喜欢用xmake快速生成项目以进行测试。xmake使用较为简单，可以满足常规的使用要求，但该编译器毕竟不如cmake这么流行，在社区和使用的广度上仍然存在一些问题，因此个人建议仅用于小型的算法验证，至于大型项目还是考虑cmake。

2023-02-15 21:47:58 374

在之前的SM概览图以及上图里，可以注意到SM内有两个Warp Scheduler和两个Dispatch Unit. 这意味着，同一时刻，会并发运行两个warp，每个warp会被分发到一个Cuda Core Group(16个CUDA Core), 或者16个load/store单元，或者4个SFU上去真正执行，且每次分发只执行一条指令，而Warp Scheduler维护了多个（比如几十个）的Warp状态（可能有多个cuda程序并行执行，这时由warp scheduler负责切换）。

2023-02-15 16:09:54 343

原创参加CUDA线上训练营·综述

1.作为点云相关的算法工程师，我发现许多算法（如体素滤波）本身很简单，但由于需要处理的点云数量非常庞大，使用CPU进行计算会消耗大量的时间。与之相比，拥有成百上千个CUDA核心的GPU非常适合处理这种步骤简单但数据庞大的计算。2.在我所从事的自动驾驶领域，算法通常需要在规定的时间内（一般为100毫秒）完成一轮计算。近年来，各大厂商增加了激光雷达线束数量，从早期的32线增加至128线甚至更高，数量也从一个主要雷达变成一主+多补盲，数据量的暴涨导致处理器的计算压力进一步增加。

2023-02-12 21:35:00 294 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_39335283的博客

原创参加CUDA线上训练营·（三）cuda的线程层次

原创参加CUDA线上训练营·（二）cuda的c++编译

转载参加CUDA线上训练营·（一）硬件架构

原创参加CUDA线上训练营·综述

空空如也

空空如也

原创 参加CUDA线上训练营·（三）cuda的线程层次

原创 参加CUDA线上训练营·（二）cuda的c++编译

转载 参加CUDA线上训练营·（一）硬件架构

原创 参加CUDA线上训练营·综述

空空如也

空空如也

原创参加CUDA线上训练营·（三）cuda的线程层次

原创参加CUDA线上训练营·（二）cuda的c++编译

转载参加CUDA线上训练营·（一）硬件架构

原创参加CUDA线上训练营·综述