模型部署_xiaomu_347的博客-优快云博客

模型部署

文章平均质量分 89

深度学习模型端测部署

文章数：23 文章阅读量：12513 文章收藏量：83

作者: xiaomu_347

这个作者很懒，什么都没留下…

展开

专栏收录文章

大模型推理引擎开发

离线推理：离线推理不需要启动server，首先初始化context，读取编译生成的engine模型，根据计算图和用户传参分配设备，然后初始化调度器，管理输入的prompt，判断是否做prompt优化，runtime通过队列管理计算任务，分配与下发计算任务，runtime graph excutor组件输出模型推理结果。模型编译过程：首先通过parser模块获取模型参数和图结构等模型推理所需的全部静态信息，初步构建静态计算图，并传递给图编译模块进行图优化与算子融合形成runtime可执行的engine文件。

原创 2025-11-12 09:54:29 · 45 阅读 · 0 评论
端侧大模型推理笔记

大模型推理优化学习

原创 2025-10-14 17:06:39 · 114 阅读 · 0 评论
Thor芯片部署

英伟达Jetson Thor芯片性能分析与应用现状摘要：英伟达最新发布的Jetson Thor芯片基于Blackwell架构，官方宣称AI算力达2070TFLOPS（FP4），较前代Orin提升7.5倍，配备14核Arm CPU和128GB内存。然而实际量产版算力缩水至700TOPS，且因4nm制程良率问题多次延期至2025-2026年交付。该芯片支持FP4/FP8量化、Transformer引擎等先进特性，适用于自动驾驶、机器人等边缘AI场景，但受供应链限制，国内厂商倾向自研方案。开发者可通过JetPa

原创 2025-08-28 16:12:04 · 182 阅读 · 0 评论
基于Tensorrt-llm完成对llm部署

随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型。TensorRT-LLM 为用户提供了易于使用的 Python API 来定义大语言模型 (LLM) 并构建 TensorRT 引擎，以便在 NVIDIA GPU 上高效地执行推理。TensorRT-LLM 还包含用于创建执行这些 TensorRT 引擎的 Python 和 C++ 运行时组件。

原创 2024-06-16 16:15:41 · 1554 阅读 · 0 评论
LLM部署之vllm vs deepspeed

LLM 模型部署

原创 2025-06-19 16:16:41 · 266 阅读 · 0 评论
模型部署范式总结

深度学习模型部署范式总结

原创 2025-06-09 14:33:38 · 112 阅读 · 0 评论
华为昇腾CANN架构

当完成整个编译器和编译语言以及算子加速库等工作，也就是你的护城河基本构建完成，其中配件越丰富，使用的人越多也就是你的护城河越深，别人越难替代。对于英伟达的护城河CUDA架构，大家应该不会陌生。同时晟腾架构还提供了图引擎和runtime等工具。

原创 2025-05-05 10:06:34 · 951 阅读 · 0 评论
TVM框架学习笔记

tvm模型部署推理

原创 2025-01-23 14:32:31 · 288 阅读 · 0 评论
目前主流soc芯片部署AI模型总结

最早的开源深度学习框架，为整个AI产业赋能，大大推动了整个行业的发展，优点是同时支持训练和推理、跨平台、开源社区力量强大、框架迭代开发快等，能够满足大部分企业的需求，但是在端侧部署存在以下问题，对移动端处理器（CPU、GPU、DSP）的优化有限，限制了一些算力要求较高的AI算法在端侧的应用。作为一个框架开发人员，因为这些硬件厂商的框架不开源，无法扩展其功能，如果算法中有些op转换不成功，就要给硬件厂商提case，基本要等很久才能支持（这里就不吐槽了）。

原创 2024-09-04 16:25:19 · 387 阅读 · 0 评论
基于pytorch的模型剪枝量化

这个网络的写法应该是很常见的，结构非常简单。，由于 FX 可以自动跟踪 forward 里面的代码，因此它是真正记录了网络里面的每个节点，在 fuse 和动态插入量化节点方面，要比 Eager 模式强太多。这一套流程下来不可谓不繁琐，而且，这只是一个相当简单的网络，遇上复杂的，或者是别人天马行空写完丢给你量化的网络，分分钟可以去世。，由于它只会对 init 函数里面定义的模块进行替换，因此，如果有一些 op 没有在 init 中定义，但又在 forward 中用到了（比如上面代码的。

原创 2024-03-07 13:38:59 · 1081 阅读 · 0 评论
基于tensorrt的模型量化

int8量化对小目标检测影响较大；int8量化相比fp16量化推理时间并不会节省一半，需实测；当fp16推理时间满足要求时，请采用fp16量化；参考链接：１.tensorrt官方int8量化方法汇总 - 知乎2Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换_tensorrt加速到fp16-优快云博客。

原创 2024-03-07 14:41:27 · 275 阅读 · 0 评论
黑芝麻芯片部署学习笔记

这一点不得不说一下了，黑芝麻的相关资料真的太少，而且不多外开放，这就导致刚开始入门有点盲人摸象的感觉，其官方论坛网站目前还只对合作方开放，如有合作意向请联系邮箱mkt@bst.ai，感觉有点限制了其发展，这一点还不如地平线来的敞亮。根据这篇博客的说明，可以按照博主的操作。由于自己手头上没有黑芝麻的板子，后续的摸索就等哪天拿到实物再进行记录吧。

原创 2024-08-23 16:47:49 · 307 阅读 · 0 评论
海思芯片部署学习笔记

目前，‌海思芯片在自动驾驶领域的应用主要包括MDC计算平台和晟腾AI芯片系列。

原创 2024-08-23 17:39:51 · 273 阅读 · 0 评论
模型训练部署之手搓一个卷积操作

这是一个最基础卷积操作，使用双重循环遍历输入矩阵，进行卷积操作，未对边界情况进行处理（例如零填充或镜像填充），如果需要处理边界，可以在输入矩阵的周围添加适当的填充值。填充后的矩阵尺寸会增加，卷积结果矩阵的尺寸将与原始输入矩阵尺寸相同。在C++中，有多种常见的数据运算加速库可以用来优化卷积操作。- MKL是Intel提供的一个高性能数学库，主要用于科学计算和工程计算。- cuDNN是NVIDIA提供的深度学习加速库，包含高效的卷积操作。- Eigen是一个高性能的C++库，主要用于矩阵和线性代数运算。

原创 2024-07-15 16:41:16 · 171 阅读 · 0 评论
Nvidia细节说明

Isaac ROS和DeepStream是NVIDIA针对不同应用领域推出的两款强大工具。Isaac ROS适用于机器人开发，特别是利用ROS生态系统的项目，而DeepStream则专注于视频流处理和深度学习推理，适用于智能视频分析应用。两者都利用NVIDIA的硬件加速能力和深度学习技术，但在具体的应用领域和开发框架上有所不同。

原创 2024-07-31 14:41:16 · 210 阅读 · 0 评论
Jetson系列板卡部署安装总结

秉持着选旧不选新的原则，推荐选择JetPack 4.6.x版本，如果你想使用yolov7以上的tensorrt加速，建议选择JetPack 5.0.2版本，因为JetPack 4.x版本最高支持的tensorrt只有8.2.1，而将onnx转engine的时候会报错，这个bug在8.4.1的时候修复了（当然也有可能只是部分人的问题）Jetson系列板卡是算法边缘端部署无法避开的一道坎，作为英伟达旗下产品，可以使用tensorrt加速，因此用户较多，生态较好；, 如果还想要配置tensorrt，则可以拉取。

原创 2024-08-18 22:32:11 · 590 阅读 · 0 评论
基于cuda实现自定义torch算子

在这个例子中，`my_cuda_module.cpp`定义了一个C++函数`my_add_function`，它准备数据并调用`my_cuda_add_kernel` CUDA核函数。- 在`setup.py`中使用`torch.utils.cpp_extension`或`distutils`来定义你的C++和CUDA扩展模块。- `.cu`文件包含了CUDA特有的语法和函数，例如 `__global__` 声明，用于定义在GPU上并行执行的函数。- 在`.cu`文件中，你定义CUDA核函数。

原创 2024-06-19 17:30:29 · 1025 阅读 · 0 评论
cuda编码入门学习笔记

首先，确保你对CUDA编程的基本概念有所了解：- CUDA是NVIDIA提供的用于并行计算的平台和编程模型。- CUDA允许你利用NVIDIA GPU的并行处理能力来加速计算任务。

原创 2024-06-27 23:03:00 · 1212 阅读 · 0 评论
tensorrt plugin使用

TensorRT 支持自定义插件（Plugin），可以使用 C++ 或 Python 编写插件来扩展 TensorRT 的功能。以上是在 Python 和 C++ 中常见的 TensorRT 插件使用方法。在使用自定义插件时，注意插件的版本和 TensorRT 的版本要匹配，并且按照 TensorRT 的文档和示例进行开发和使用。在 Python 中编写 TensorRT 插件通常使用 `tensorrt.PluginV2DynamicExt` 类。你需要实现该类的虚函数来定义插件的行为。

原创 2024-04-30 10:42:14 · 305 阅读 · 0 评论
pytorch_quantization量化工具使用简记

pytorch_quantization 是 NVIDIA 开发的，是一个用于量化 PyTorch 模型的工具库，它支持多种量化方案，包括量化感知训练（Quantization Aware Training，QAT）和后训练量化（Post-Training Quantization，PTQ）。它与 TensorRT 有很好的集成，可以方便地将量化后的 PyTorch 模型转换为 TensorRT Engine，从而在 NVIDIA GPU 上进行高效推理。：确保你的 PyTorch 环境已经安装，并且与。

原创 2024-05-07 16:46:07 · 1246 阅读 · 0 评论
深度学习模型部署遇到不支持op时

在对superpoint进行部署时，当trt版本为8.4时出现对grid_sample的不支持，对于grid_sample原理可以参考。

原创 2024-07-01 14:05:11 · 209 阅读 · 0 评论
基于瑞芯微芯片模型部署

瑞芯微的主要产品智能应用处理器芯片，是SOC的一种，属于系统级的超大规模数字 IC。SOC通常内置中央处理器(CPU)和图形处理器(GPU)，并根据使用场景的需要增加图像信号处理器(ISP)、神经网络处理器(NPU)、多媒体视频编解码器及音频处理器等处理内核。其智能应用处理器芯片可以分为内置 NPU 的人工智能应用处理器芯片和不带 NPU 的传统智能应用处理器芯片。下面以RK3588部署yolov5为例进行如下说明。RK3588是瑞芯微（Rockchip）公司推出的一款高性能、低功耗的集成电路芯片。

原创 2024-07-09 16:44:31 · 323 阅读 · 0 评论
基于地平线J5/J3部署深度学习模型

模型转换的第一步是模型检查，该步骤将分析模型与硬件平台的兼容性。在模型检查阶段，模型将被拆分为适合BPU和CPU运行的子图，理想情况下，我们期望仅存在一个运行在BPU上的子图。在进行ONNX模型转换时，需注意X3硬件架构的特定要求：它仅支持ONNX Opset 11版本，且模型输入维度限定为NCHW或NHWC，同时只支持批次为1的操作。地平线X3硬件平台的BPU单元主要支持INT8，尽管市场上如华为Atlas200 NPU等产品也支持FP16精度，但在以卷积计算主导的网络输出中，这两者间的精度差异并不大。

原创 2024-07-09 14:44:48 · 1397 阅读 · 0 评论

模型部署

作者: xiaomu_347

大模型推理引擎开发

端侧大模型推理笔记

Thor芯片部署

基于Tensorrt-llm完成对llm部署

LLM部署之vllm vs deepspeed

模型部署范式总结

华为昇腾CANN架构

TVM框架学习笔记

目前主流soc芯片部署AI模型总结

基于pytorch的模型剪枝量化

基于tensorrt的模型量化

黑芝麻芯片部署学习笔记

海思芯片部署学习笔记

模型训练部署之手搓一个卷积操作

Nvidia细节说明

Jetson系列板卡部署安装总结

基于cuda实现自定义torch算子

cuda编码入门学习笔记

tensorrt plugin使用

pytorch_quantization量化工具使用简记

深度学习模型部署遇到不支持op时

基于瑞芯微芯片模型部署

基于地平线J5/J3部署深度学习模型