xiaomu_347
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型推理引擎开发
离线推理:离线推理不需要启动server,首先初始化context,读取编译生成的engine模型,根据计算图和用户传参分配设备,然后初始化调度器,管理输入的prompt,判断是否做prompt优化,runtime通过队列管理计算任务,分配与下发计算任务,runtime graph excutor组件输出模型推理结果。模型编译过程:首先通过parser模块获取模型参数和图结构等模型推理所需的全部静态信息,初步构建静态计算图,并传递给图编译模块进行图优化与算子融合形成runtime可执行的engine文件。原创 2025-11-12 09:54:29 · 45 阅读 · 0 评论 -
端侧大模型推理笔记
大模型推理优化学习原创 2025-10-14 17:06:39 · 114 阅读 · 0 评论 -
Thor芯片部署
英伟达Jetson Thor芯片性能分析与应用现状 摘要:英伟达最新发布的Jetson Thor芯片基于Blackwell架构,官方宣称AI算力达2070TFLOPS(FP4),较前代Orin提升7.5倍,配备14核Arm CPU和128GB内存。然而实际量产版算力缩水至700TOPS,且因4nm制程良率问题多次延期至2025-2026年交付。该芯片支持FP4/FP8量化、Transformer引擎等先进特性,适用于自动驾驶、机器人等边缘AI场景,但受供应链限制,国内厂商倾向自研方案。开发者可通过JetPa原创 2025-08-28 16:12:04 · 182 阅读 · 0 评论 -
基于Tensorrt-llm完成对llm部署
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型。TensorRT-LLM 为用户提供了易于使用的 Python API 来定义大语言模型 (LLM) 并构建 TensorRT 引擎,以便在 NVIDIA GPU 上高效地执行推理。TensorRT-LLM 还包含用于创建执行这些 TensorRT 引擎的 Python 和 C++ 运行时组件。原创 2024-06-16 16:15:41 · 1554 阅读 · 0 评论 -
LLM部署之vllm vs deepspeed
LLM 模型部署原创 2025-06-19 16:16:41 · 266 阅读 · 0 评论 -
模型部署范式总结
深度学习模型部署范式总结原创 2025-06-09 14:33:38 · 112 阅读 · 0 评论 -
华为昇腾CANN架构
当完成整个编译器和编译语言以及算子加速库等工作,也就是你的护城河基本构建完成,其中配件越丰富,使用的人越多也就是你的护城河越深,别人越难替代。对于英伟达的护城河CUDA架构,大家应该不会陌生。同时晟腾架构还提供了图引擎和runtime等工具。原创 2025-05-05 10:06:34 · 951 阅读 · 0 评论 -
TVM框架学习笔记
tvm模型部署推理原创 2025-01-23 14:32:31 · 288 阅读 · 0 评论 -
目前主流soc芯片部署AI模型总结
最早的开源深度学习框架,为整个AI产业赋能,大大推动了整个行业的发展,优点是同时支持训练和推理、跨平台、开源社区力量强大、框架迭代开发快等,能够满足大部分企业的需求,但是在端侧部署存在以下问题,对移动端处理器(CPU、GPU、DSP)的优化有限,限制了一些算力要求较高的AI算法在端侧的应用。作为一个框架开发人员,因为这些硬件厂商的框架不开源,无法扩展其功能,如果算法中有些op转换不成功,就要给硬件厂商提case,基本要等很久才能支持(这里就不吐槽了)。原创 2024-09-04 16:25:19 · 387 阅读 · 0 评论 -
基于pytorch的模型剪枝量化
这个网络的写法应该是很常见的,结构非常简单。,由于 FX 可以自动跟踪 forward 里面的代码,因此它是真正记录了网络里面的每个节点,在 fuse 和动态插入量化节点方面,要比 Eager 模式强太多。这一套流程下来不可谓不繁琐,而且,这只是一个相当简单的网络,遇上复杂的,或者是别人天马行空写完丢给你量化的网络,分分钟可以去世。,由于它只会对 init 函数里面定义的模块进行替换,因此,如果有一些 op 没有在 init 中定义,但又在 forward 中用到了(比如上面代码的。原创 2024-03-07 13:38:59 · 1081 阅读 · 0 评论 -
基于tensorrt的模型量化
int8量化对小目标检测影响较大;int8量化相比fp16量化推理时间并不会节省一半,需实测;当fp16推理时间满足要求时,请采用fp16量化;参考链接:1.tensorrt官方int8量化方法汇总 - 知乎2Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换_tensorrt加速到fp16-优快云博客。原创 2024-03-07 14:41:27 · 275 阅读 · 0 评论 -
黑芝麻芯片部署学习笔记
这一点不得不说一下了,黑芝麻的相关资料真的太少,而且不多外开放,这就导致刚开始入门有点盲人摸象的感觉,其官方论坛网站目前还只对合作方开放,如有合作意向请联系邮箱mkt@bst.ai,感觉有点限制了其发展,这一点还不如地平线来的敞亮。根据这篇博客的说明,可以按照博主的操作。由于自己手头上没有黑芝麻的板子,后续的摸索就等哪天拿到实物再进行记录吧。原创 2024-08-23 16:47:49 · 307 阅读 · 0 评论 -
海思芯片部署学习笔记
目前,海思芯片在自动驾驶领域的应用主要包括MDC计算平台和晟腾AI芯片系列。原创 2024-08-23 17:39:51 · 273 阅读 · 0 评论 -
模型训练部署之手搓一个卷积操作
这是一个最基础卷积操作,使用双重循环遍历输入矩阵,进行卷积操作,未对边界情况进行处理(例如零填充或镜像填充),如果需要处理边界,可以在输入矩阵的周围添加适当的填充值。填充后的矩阵尺寸会增加,卷积结果矩阵的尺寸将与原始输入矩阵尺寸相同。在C++中,有多种常见的数据运算加速库可以用来优化卷积操作。- MKL是Intel提供的一个高性能数学库,主要用于科学计算和工程计算。- cuDNN是NVIDIA提供的深度学习加速库,包含高效的卷积操作。- Eigen是一个高性能的C++库,主要用于矩阵和线性代数运算。原创 2024-07-15 16:41:16 · 171 阅读 · 0 评论 -
Nvidia细节说明
Isaac ROS和DeepStream是NVIDIA针对不同应用领域推出的两款强大工具。Isaac ROS适用于机器人开发,特别是利用ROS生态系统的项目,而DeepStream则专注于视频流处理和深度学习推理,适用于智能视频分析应用。两者都利用NVIDIA的硬件加速能力和深度学习技术,但在具体的应用领域和开发框架上有所不同。原创 2024-07-31 14:41:16 · 210 阅读 · 0 评论 -
Jetson系列板卡部署安装总结
秉持着选旧不选新的原则,推荐选择JetPack 4.6.x版本,如果你想使用yolov7以上的tensorrt加速,建议选择JetPack 5.0.2版本,因为JetPack 4.x版本最高支持的tensorrt只有8.2.1,而将onnx转engine的时候会报错,这个bug在8.4.1的时候修复了(当然也有可能只是部分人的问题)Jetson系列板卡是算法边缘端部署无法避开的一道坎,作为英伟达旗下产品,可以使用tensorrt加速,因此用户较多,生态较好;, 如果还想要配置tensorrt,则可以拉取。原创 2024-08-18 22:32:11 · 590 阅读 · 0 评论 -
基于cuda实现自定义torch算子
在这个例子中,`my_cuda_module.cpp`定义了一个C++函数`my_add_function`,它准备数据并调用`my_cuda_add_kernel` CUDA核函数。- 在`setup.py`中使用`torch.utils.cpp_extension`或`distutils`来定义你的C++和CUDA扩展模块。- `.cu`文件包含了CUDA特有的语法和函数,例如 `__global__` 声明,用于定义在GPU上并行执行的函数。- 在`.cu`文件中,你定义CUDA核函数。原创 2024-06-19 17:30:29 · 1025 阅读 · 0 评论 -
cuda编码入门学习笔记
首先,确保你对CUDA编程的基本概念有所了解:- CUDA是NVIDIA提供的用于并行计算的平台和编程模型。- CUDA允许你利用NVIDIA GPU的并行处理能力来加速计算任务。原创 2024-06-27 23:03:00 · 1212 阅读 · 0 评论 -
tensorrt plugin使用
TensorRT 支持自定义插件(Plugin),可以使用 C++ 或 Python 编写插件来扩展 TensorRT 的功能。以上是在 Python 和 C++ 中常见的 TensorRT 插件使用方法。在使用自定义插件时,注意插件的版本和 TensorRT 的版本要匹配,并且按照 TensorRT 的文档和示例进行开发和使用。在 Python 中编写 TensorRT 插件通常使用 `tensorrt.PluginV2DynamicExt` 类。你需要实现该类的虚函数来定义插件的行为。原创 2024-04-30 10:42:14 · 305 阅读 · 0 评论 -
pytorch_quantization量化工具使用简记
pytorch_quantization 是 NVIDIA 开发的,是一个用于量化 PyTorch 模型的工具库,它支持多种量化方案,包括量化感知训练(Quantization Aware Training,QAT)和后训练量化(Post-Training Quantization,PTQ)。它与 TensorRT 有很好的集成,可以方便地将量化后的 PyTorch 模型转换为 TensorRT Engine,从而在 NVIDIA GPU 上进行高效推理。:确保你的 PyTorch 环境已经安装,并且与。原创 2024-05-07 16:46:07 · 1246 阅读 · 0 评论 -
深度学习模型部署遇到不支持op时
在对superpoint进行部署时,当trt版本为8.4时出现对grid_sample的不支持,对于grid_sample原理可以参考。原创 2024-07-01 14:05:11 · 209 阅读 · 0 评论 -
基于瑞芯微芯片模型部署
瑞芯微的主要产品智能应用处理器芯片,是SOC的一种,属于系统级的超大规模数字 IC。SOC通常内置中央处理器(CPU)和图形处理器(GPU),并根据使用场景的需要增加图像信号处理器(ISP)、神经网络处理器(NPU)、多媒体视频编解码器及音频处理器等处理内核。其智能应用处理器芯片可以分为内置 NPU 的人工智能应用处理器芯片和不带 NPU 的传统智能应用处理器芯片。下面以RK3588部署yolov5为例进行如下说明。RK3588是瑞芯微(Rockchip)公司推出的一款高性能、低功耗的集成电路芯片。原创 2024-07-09 16:44:31 · 323 阅读 · 0 评论 -
基于地平线J5/J3部署深度学习模型
模型转换的第一步是模型检查,该步骤将分析模型与硬件平台的兼容性。在模型检查阶段,模型将被拆分为适合BPU和CPU运行的子图,理想情况下,我们期望仅存在一个运行在BPU上的子图。在进行ONNX模型转换时,需注意X3硬件架构的特定要求:它仅支持ONNX Opset 11版本,且模型输入维度限定为NCHW或NHWC,同时只支持批次为1的操作。地平线X3硬件平台的BPU单元主要支持INT8,尽管市场上如华为Atlas200 NPU等产品也支持FP16精度,但在以卷积计算主导的网络输出中,这两者间的精度差异并不大。原创 2024-07-09 14:44:48 · 1397 阅读 · 0 评论
分享