
项目经验
文章平均质量分 61
后来居上_m
西安交通大学研究生
字节跳动架构师
展开
-
LLVM简介(从入门到精通---最精炼介绍)
LLVM和GCC都是编译器框架,llvm由C++编写,被Apple、Google、Facebook等广泛采用1987年诞生 GCC: 为整体应用程序设计,新平台需定制化实现,开发难度和成本高2000年诞生 LLVM: 三段式结构(前、中、后端),模块化的架构更灵活和强大的优化能力可以为任何编程语言独立编写前端,或为任意硬件架构独立编写后端LLVM的中间语言与具体的语言、指令集、类型系统无关,其中每条指令都是静态单赋值形式静态单赋值形式)(SSA), 即每个变量只能被赋值一次。原创 2024-10-29 19:55:00 · 1468 阅读 · 0 评论 -
Nsight Compute使用方法(心得)
根据上图可基本了解计算和内存占用率情况,根据不同领域的内核代码,占用率有自身的特点(比如大数据kernel的内存占用率会高点,某类深度学习的计算占用率会高点),但是一般情况而言两者进度条相差不大性能较好。根据上图,第一个表格表示每个线程中的寄存器大小最终影响warp占用率的情况,第二个表格表示Block Size引起的warp占用率情况,第三个表格为共享内存的影响情况。(借鉴:矩阵转置时,SM占用率较低,使用共享内存进行矩阵转置的优化后,SM的占用有所提高,性能也更好)原创 2023-11-07 10:59:44 · 3572 阅读 · 2 评论 -
雷达信号处理算法GPU加速(含完整代码)
雷达信号处理算法完整流程gpu加速,优化后加速明显提升。原创 2023-07-27 19:42:11 · 1908 阅读 · 19 评论 -
雷达信号处理脉冲压缩算法GPU实现及加速(含完整代码)
展示GPU端完成雷达信号处理脉冲压缩完整算法加速,为探索GPU部署雷达信号处理提供参考。原创 2023-06-13 13:35:44 · 1372 阅读 · 4 评论 -
ROCm平台简介及使用汇总
ROCm是AMD的一个软件平台,用来加速GPU计算A卡上编程模型使用的是HIP或者OpenCL,而运行环境是ROCmN卡上,编程模型是CUDA,运行环境也是CUDA链接: [https://rocmdocs.amd.com/en/latest/]原创 2023-04-03 17:22:32 · 8789 阅读 · 2 评论 -
Openblas 下载和使用方法
Openblas 下载及使用,快速上手原创 2023-02-13 18:49:40 · 2532 阅读 · 0 评论 -
NE10下载和使用方法总结
做信号处理项目时使用NE10库,总结了一下使用过程原创 2023-02-13 16:43:47 · 902 阅读 · 2 评论