- 博客(4)
- 收藏
- 关注
原创 参加CUDA线上训练营·(二)cuda的c++编译
xmake官网。该编译器安装方便,上手快,支持c++,cuda,Qt,iOS等语言和项目的编译,我在进行简单的模块开发时喜欢用xmake快速生成项目以进行测试。xmake使用较为简单,可以满足常规的使用要求,但该编译器毕竟不如cmake这么流行,在社区和使用的广度上仍然存在一些问题,因此个人建议仅用于小型的算法验证,至于大型项目还是考虑cmake。
2023-02-15 21:47:58
374
转载 参加CUDA线上训练营·(一)硬件架构
在之前的SM概览图以及上图里,可以注意到SM内有两个Warp Scheduler和两个Dispatch Unit. 这意味着,同一时刻,会并发运行两个warp,每个warp会被分发到一个Cuda Core Group(16个CUDA Core), 或者16个load/store单元,或者4个SFU上去真正执行,且每次分发只执行 一条 指令,而Warp Scheduler维护了多个(比如几十个)的Warp状态(可能有多个cuda程序并行执行,这时由warp scheduler负责切换)。
2023-02-15 16:09:54
343
原创 参加CUDA线上训练营·综述
1.作为点云相关的算法工程师,我发现许多算法(如体素滤波)本身很简单,但由于需要处理的点云数量非常庞大,使用CPU进行计算会消耗大量的时间。与之相比,拥有成百上千个CUDA核心的GPU非常适合处理这种步骤简单但数据庞大的计算。2.在我所从事的自动驾驶领域,算法通常需要在规定的时间内(一般为100毫秒)完成一轮计算。近年来,各大厂商增加了激光雷达线束数量,从早期的32线增加至128线甚至更高,数量也从一个主要雷达变成一主+多补盲,数据量的暴涨导致处理器的计算压力进一步增加。
2023-02-12 21:35:00
294
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅