
模型部署
文章平均质量分 90
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
-
模型部署系列 | 如何本地部署LLM服务?以ollama为例
本文主要介绍如何安装ollama,并演示2种加载模型的方法:(1)拉取ollama官方已经有的模型,进行LLM服务部署。(2)加载本地模型部署大模型服务。最后,对部署的LLM服务的接口进行测试。#大模型部署 #LLM部署 #如何部署ollama #模型框架 #AI入门 #推理加速。原创 2024-09-22 20:16:57 · 1970 阅读 · 0 评论 -
模型部署系列 | 01: 基于Triton部署Resnet18(附完整代码,建议收藏)
醉后不知天在水,满船清梦压星河。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖猪脚饭的小女孩。。本文作为作为的开篇,主要介绍如何使用Triton Server部署Pytorch格式的模型,并利用NVIDIA官方提供的工具进行服务性能测试。完整代码其实都在文章里面了,如想进一步交流欢迎在微信公众号:《小窗幽记机器学习》上添加小编微信。。后续会持续整理专题,敬请关注。原创 2023-07-17 23:24:12 · 1054 阅读 · 0 评论 -
【模型推理加速系列】04:BERT加速方案对比 TorchScript vs. ONNX
本文以 BERT-base 的为例,介绍2种常用的推理加速方案:ONNX 和 TorchScript,并实测对比这两种加速方案与原始Pytorch模型格式的inference性能原创 2022-11-05 23:36:22 · 2252 阅读 · 4 评论 -
基于Triton Server部署BERT模型
背景本文简要介绍如何使用 Triton 部署 BERT模型,主要参考 NVIDIA/DeepLearningExamples准备工作下载数据进入到/data/DeepLearningExamples-master/PyTorch/LanguageModeling/BERT/data/squad后,下载数据:bash ./squad_download.sh下载模型wget --content-disposition https://api.ngc.nvidia.com/v2/models/n原创 2022-03-11 16:17:32 · 7136 阅读 · 3 评论