
模型部署与算子优化
文章平均质量分 70
主要包括模型部署过程中onnx的转换技巧
部署后算子优化技巧
mingshili
从事CV,智能驾驶相关行业;对AI非常感兴趣;对于pytorch非常熟练,自己从无到有搭建过物体检测,语义分割等模型工程(FasterRCNN,YOLO,SSD,Unet,DeepLab,SqueezeSeg等);目前主要专注于激光点云语义分割相关领域;并且对于模型部署和算子优化有一定深入的造诣。
展开
-
[AI部署-tensorRT] customlayer定义添加过程解析
基于tensorRT开发plugin过程原创 2025-01-15 14:57:56 · 716 阅读 · 0 评论 -
[CUDA] gemm优化之mma
主要说明cuda gemm中使用mma的两个方式原创 2025-01-15 14:54:48 · 304 阅读 · 0 评论 -
[CUDA] cuda开发之misalign address问题
cuda申请过程中首地址对齐问题原创 2025-01-15 14:49:18 · 310 阅读 · 0 评论 -
[CUDA] cuda编程实践
cuda编程实战: 用于总汇所有cuda优化和开发相关的知识记录原创 2025-01-15 14:44:24 · 644 阅读 · 0 评论 -
[算法基础] hash算法
主要讲解目前主流的一些hash算法和应用场景原创 2025-01-15 14:26:04 · 722 阅读 · 0 评论 -
[C++] perf工具评测耗时
perf对一些应用的监控使用记录原创 2024-12-09 15:50:06 · 361 阅读 · 0 评论 -
[pytorch|AI算法] 用mpirun同时跑多个模型推理
用mpirun 并行多个model,在8卡上进行同步推理,增加gpu使用率原创 2024-12-09 15:36:06 · 433 阅读 · 0 评论 -
[CUDA] 编译调试工具objdump使用查看某些cuda函数汇编代码
调研cublas等cuda库函数的一些底层代码实现逻辑,通过汇编逻辑来看具体实现,推断可能的耗时异常原因原创 2024-12-09 14:54:56 · 264 阅读 · 0 评论 -
[CUDA] cuda程序编译注意事项
cuda的一些编译问题的记录原创 2024-11-11 22:45:00 · 384 阅读 · 0 评论 -
[CUDA] cuda kernel开发记录
包括kernel的一些使用注意事项, launch_bound, __device__, debug排查技巧原创 2024-11-11 20:45:00 · 1002 阅读 · 0 评论 -
[CUDA] 设置sync模式cudaSetDeviceFlags
可以设置cuda Stream synchorinze时是释放cpu资源还是把持cpu资源;根据官方说明默认当gpu 个数大于cpu的时候,因为cpu紧张所以会yield时间片;cuda的 synchronize等待模式分为: Yield方式, busy waiting方式(spin), blocking方式。- gpu context切换更加频繁了,应该是block阻塞导致的。- block恢复存在延迟,导致一些空白gpu时间,如下图红色框。采用blocking模式后,nsight观察的现象有几个。原创 2024-11-07 20:01:19 · 1000 阅读 · 0 评论 -
[CUDA] 将已有的地址空间设置为pinned memory
使用cudaHostRegister将已有的地址空间设置为pinned memory。原创 2024-11-07 19:50:05 · 515 阅读 · 0 评论 -
[CUDA] 判断一个指针是GPU还是CPU
如何判断地址是device的还是host的?原创 2024-11-07 19:42:39 · 472 阅读 · 0 评论 -
[CUDA] launch_bounds的使用记录
记录cuda kernel中使用的launch bound的作用和使用方式原创 2024-11-07 19:37:30 · 543 阅读 · 0 评论 -
[python] 如何debug python脚本中C++后端的core dump
记录debug python和C++混合编程时的一些技巧原创 2024-11-06 15:47:33 · 593 阅读 · 0 评论 -
[CUDA] ptx使用笔记
介绍cuda的底层编程语言ptx的一些使用笔记原创 2024-11-04 20:31:52 · 2182 阅读 · 0 评论 -
[系统优化] 系统调度策略调整笔记
讲解主要的linux系统常用的一些调度策略,用于优化复杂应用中的线程调度,对整体性能有很大影响,需要综合考虑原创 2024-11-01 20:18:49 · 589 阅读 · 0 评论 -
[CUDA] stream使用笔记
一些cudaMemcpyAsync, 不一定是异步的,比如当host和device之间传输数据的时候,虽然使用异步copy,但是会内含同步,从而导致一些block或spin行为。原创 2024-11-01 16:18:54 · 449 阅读 · 0 评论 -
[CUDA] kernel归约注意事项
本文记录了一下cuda kernel在进行归约时,需要注意idx > size对后续代码的阻断问题原创 2024-11-01 15:53:09 · 190 阅读 · 0 评论 -
[CUDA] atomic函数闭坑技巧
记录cuda kernel中使用atomicfunc时的一些注意事项原创 2024-11-01 15:40:43 · 434 阅读 · 0 评论 -
[CUDA编程] cuda graph优化心得
【代码】[CUDA编程] cuda graph优化心得。原创 2024-06-12 11:36:01 · 2164 阅读 · 0 评论 -
[pytorch] libtorch-C++的实现
libtorch是pytorch的C++版本,可以将pytorch的代码尤其自定义算子,通过libtorch迅速实现为C++版本的自定义算子,从而快速的实现模型部署的验证工作;原创 2022-11-06 23:11:08 · 1699 阅读 · 0 评论 -
[pytorch] torch.onnx.export 使用及自定义层构建
构建pytorch转onnx的自定义层原创 2022-07-14 14:02:34 · 1795 阅读 · 0 评论