硬件设备
- CPU:i5-12400F
- MEM:16GB 3200Hz
- SSD:1TB
- GPU:RTX 4060Ti 8GB
基本流程
- 安装ubuntu22.04
- 安装cuda 12.3
- 拉取Tensorrt-LLM代码,编译docker
- 在docker内部编译Tensorrt-LLM,参考文档
- 下载模型和权重
- 从checkpoint模型转换到tensorrt engine
- 使用example/run.py加载模型并推理
进阶可选:
- 在windows系统上,直接构建docker image,将cuda安装环节也包含在docker build中
- 将qwen模型的推理封装成动态链接库,通过link的方式来调用推理
4479

被折叠的 条评论
为什么被折叠?



