TensorRT + LLM 多模态推理协同部署：高吞吐 × 精度稳定的系统级方案

本文链接：https://blog.youkuaiyun.com/sinat_28461591/article/details/147153725

个人简介

作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与 Agent 架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。
我叫观熵。不是在控熵，就是在观测熵的流动
个人主页：观熵
个人邮箱：privatexxxx@163.com
座右铭：愿科技之光，不止照亮智能，也照亮人心！

专栏导航

观熵系列专栏导航：
AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到AI在行业中的落地应用，我们将深入剖析最前沿的AI技术，分享实用的开发经验，并探讨AI未来的发展趋势
AI开源框架实战：面向 AI 工程师的大模型框架实战指南，覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉：聚焦计算机视觉前沿技术，涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战：持续更新的国产开源大模型部署实战教程，覆盖从模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理的完整全流程
TensorFlow 全栈实战：从建模到部署：覆盖模型构建、训练优化、跨平台部署与工程交付，帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏： PyTorch 框架的全栈实战应用，涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT：深入解析 TensorRT 的核心机制与部署实践，助力构建高性能 AI 推理系统
Megatron-LM 实战笔记：聚焦于 Megatron-LM 框架的实战应用，涵盖从预训练、微调到部署的全流程
AI Agent：系统学习并亲手构建一个完整的 AI Agent 系统，从基础理论、算法实战、框架应用，到私有部署、多端集成
DeepSeek 实战与解析：聚焦 DeepSeek 系列模型原理解析与实战应用，涵盖部署、推理、微调与多场景集成，助你高效上手国产大模型
端侧大模型：聚焦大模型在移动设备上的部署与优化，探索端侧智能的实现路径
行业大模型 · 数据全流程指南：大模型预训练数据的设计、采集、清洗与合规治理，聚焦行业场景，从需求定义到数据闭环，帮助您构建专属的智能数据基座
机器人研发全栈进阶指南：从ROS到AI智能控制：机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全：通过实战案例和系统化方法，帮助开发者和安全工程师识别风险、构建防御机制，确保 AI 系统的稳定与安全
智能 DevOps 工厂：AI 驱动的持续交付实践：构建以 AI 为核心的智能 DevOps 平台，涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记？：聚焦于现代 C++ 编程的核心概念与实践，涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战：从数据、策略到实盘，打造全栈智能量化交易系统

《TensorRT + LLM 多模态推理协同部署：高吞吐 × 精度稳定的系统级方案》

✨ 摘要：

多模态系统正在成为 AI 应用的主流架构，如何将语言大模型（LLM）与视觉模型（如 CLIP、BLIP、SAM、YOLO）协同部署，是落地 AI Agent、VQA 系统、文图检索、场景分析的关键。
本文将从工程角度深入讲解如何使用 TensorRT 构建多模型异构部署体系，支持 LLM 与视觉模型协同调度，包括：多后端模型分发、动态任务图管理、显存隔离与上下文共享、异步管线执行、跨模型 Plugin 复用等能力。最终构建一个具备高性能、可扩展、稳定性的多模态智能引擎。

🧭 目录：

多模态协同部署的典型场景与架构挑战
LLM 与视觉模型的资源需求差异分析（TPU / GPU / Jetson）
TensorRT 支持的多模态模型类型解析（CLIP / SAM / YOLO / MiniGPT4）
多模型异构调度架构设计（语言 + 图像异步协同）
推理任务图设计：多模型推理依赖关系管理与执行策略
跨模型 Context 管理与 buffer 复用机制
Triton Server 多后端协同部署方案（LLM+CV 混合服务）
多模态任务的延迟优化技巧（预加载、Stream Pipeline、INT8）
多模型协同系统的精度与稳定性评估方法

1. 多模态协同部署的典型场景与架构挑战

随着 GPT-4V、Gemini、Claude 等多模态模型崛起，AI 应用逐渐从“单一任务”演进为“语言+视觉+控制协同执行”的智能系统，对底层部署架构也提出了更高的要求。

✅ 典型的多模态部署应用场景

场景	LLM 组件	视觉组件	说明
文图问答（VQA）	Vicuna / Mistral	BLIP2 / MiniGPT4 / CLIP	图像输入 → 生成答案
多模态 Agent	LLM / RAG	SAM / GroundingDINO / YOLOv5	感知 - 推理 - 规划 - 执行全流程
智能客服 / 助手	ChatGLM / Qwen	OCR / 票据识别模型	图文混输，多轮对话场景
内容理解与创作	LLaVA / Gemini	ViT / UNet / ControlNet	分析图 + 文生成脚本 /标签
安防巡检系统	LLM 推理控制流	YOLOv8 / pose 模型	控制流程由 LLM 决策，CV 模型执行感知任务

📦 多模态部署系统的一般结构：

┌────────────┐       ┌────────────┐
│ LLM 模型 A │◀──────│ 中控任务图 │─────┐
└────────────┘       └────────────┘     │
       ▲                                 ▼
┌────────────┐                  ┌────────────────┐
│ 文本 Token │   协同调度      │ 图像特征/推理结果 │
└────────────┘                  └────────────────┘
         ▲                                 ▲
┌────────────┐       ┌────────────┐       │
│ 视觉模型 B │──────▶│ 预处理 / 后处理 │─────┘
└────────────┘       └────────────┘

✅ 推理流程不仅是模型调用顺序，更是任务依赖 + 上下文交互 + Stream 调度 + 显存隔离的 系统工程问题。

🚨 多模态部署面临的工程挑战：

类型	问题描述	隐含风险
资源冲突	LLM 模型显存占用巨大，无法和视觉模型同时加载	推理失败 / OOM
模型调度	各模型推理耗时差异大（LLM > CV），流水线不均衡	GPU 利用率低、瓶颈偏移
输入异构	LLM 接文本，CV 接图像 → 特征跨域交换困难	需要结构化中间层设计
Plugin 复用	多模型存在不同插件或同名插件冲突	注册失败 / 混用报错
多模型整合	Triton 等部署框架多为“单模型服务”优化	推理路径复杂，版本难控

2. LLM 与视觉模型的资源需求差异分析（TPU / GPU / Jetson）

要部署多模态系统，必须清晰了解不同模型的资源消耗差异，从而合理设计调度策略和平台选择。

🧠 资源对比：以 Mistral-7B、YOLOv8n、CLIP 为例

模型	类型	显存需求（FP16）	吞吐限制	适合平台
Mistral-7B	LLM	~13.4 GB	<20 tokens/s（单卡）	A100 / L40 / L4
YOLOv8n	CV 检测	~380 MB	>70 FPS（Jetson）	Jetson / T4
CLIP-ViT-B	图文匹配	~1.2 GB	可达 30 qps（云端）	L4 / T4 / 高端边缘

✅ 推理成本构成差异

维度	LLM	CV 模型
计算瓶颈	大量矩阵乘法（GEMM）	卷积 + pooling + NMS
输入处理	tokenizer + prompt 拼接	图像 resize + normalize
输出处理	多轮对话 +上下文管理	检测框 / 分类标签 / heatmap
内存释放策略	长时间保持上下文	可临时卸载、任务后立即清理

🎯 多模态部署平台选型建议：

平台	适合部署	说明
A100 / L40	LLM + 多视觉模型全驻留	推荐使用 Triton / vLLM 多线程协同部署
L4 / T4	轻量 LLM（Qwen1.5 0.5B）+ 视觉模型	推荐 FP16/INT8 部署，控制 batch
Jetson Orin	纯 CV 多模态任务（SAM+OCR）	不推荐驻留 LLM，可改为远端接口
云 + 端异构部署	LLM 云推理 + CV 边缘设备	构建 RPC/REST 桥接框架，任务图统一调度

✅ 构建多模态协同系统，不是简单模型堆叠，而是资源建模 + 执行图规划 + 部署策略 + 精度评估的系统工程。

3. TensorRT 支持的多模态模型类型解析（CLIP / SAM / YOLO / MiniGPT4）

TensorRT 在多模态部署中，主要承担 视觉模型高效推理的执行引擎角色，也可以在部分轻量语言模型（如 Qwen-Tiny）上使用 FP16/INT8 优化。

✅ 可通过 TensorRT 部署的典型多模态模型：

模型类型	代表模型	TensorRT 支持情况	说明
图文匹配	CLIP (ViT-B / RN50)	✅ 支持 FP16, 动态 shape, INT8	HuggingFace 版可导出 ONNX，无控制流结构
图文生成	BLIP2 (Vision Encoder + QFormer)	✅ Vision 部分支持，LLM 需拆分部署	可将视觉部分转为 Engine，文本模块走 LLM 微服务
图像检测	YOLOv5/v8, GroundingDINO	✅ 完整支持	社区已有成熟 trt engine 构建方案
图像分割	SAM (MobileSAM / HQ-SAM)	✅ 编译后支持	推荐用 MobileSAM，适配更容易
图像编码	ViT / ResNet / CNN	✅ 支持任意特征提取主干	可作为多模态系统的感知前端
文生图/图生文	MiniGPT4, LLaVA	部分支持	通常仅 Vision Encoder 可加速，LLM 部分由 vLLM / Triton / HuggingFace 推理服务接管
OCR 结构化	CRNN / DBNet / SAR	✅ 完整支持	特别适合部署在 Jetson + 边缘盒子等设备中

❌ 不建议尝试使用 TensorRT 的多模态模型：

模型	原因
原始 GPT-2/3 架构	控制流结构复杂，ONNX 支持差
LLaMA-2 全量推理	多输入 + 多输出 + 动态 KV 缓存，序列处理不适配 TensorRT 原生机制
CLIP with complex pooling/token fusion	一些 HuggingFace 模型中包含不可序列化操作
多轮上下文管理型对话系统	除非模型做了结构化拆分，否则建议走 vLLM 等专用框架

🎯 实战建议：

类型	TensorRT 角色	推荐方案
LLM 主体	不推荐直接用 TensorRT 部署	使用 vLLM、TGI、Triton Python Backend 等更合适
图像感知 + 预处理	TensorRT Engine 加速推理	YOLO/SAM/CLIP 放到 TensorRT，最高性价比
多模态对话系统	拆分为视觉 + LLM 两段部署	用共享 KV / 预提特征方式打通视觉输入与文本流处理
异构设备部署	Jetson 跑 CV / 云端跑 LLM	利用 RPC / REST 接口桥接，TensorRT 仅负责视觉推理

4. 多模型异构调度架构设计（语言 + 图像异步协同）

构建一个多模态智能系统，最核心的是“调度”——不仅要在模型之间协调执行顺序，还要匹配每个模型的计算特性、资源负载和延迟敏感度，并实现可复用、高并发、稳定的系统结构。

✅ 典型异构调度架构（图文问答类场景）：

       ┌────────────┐
       │ 用户请求   │
       └────┬───────┘
            ▼
   ┌──────────────────────┐
   │ 多模态任务调度模块     │ ← 接管全局请求流 & 模型管理
   └────┬────────────┬────┘
        ▼            ▼
┌────────────┐ ┌──────────────┐
│ 视觉前端   │ │ LLM 服务引擎 │
│（TensorRT）│ │（vLLM / TGI）│
└────┬───────┘ └────┬─────────┘
     ▼              ▼
 图像特征       Prompt 构造
     ▼              ▼
   ─────────► 多模态融合模块 ◄──────────
              （QFormer / CrossAttn）

📦 调度模块职责：

模块	功能
多模态调度入口	识别输入类型、构造任务依赖图
模型路由器	分配模型资源：TensorRT / Triton / vLLM
特征共享管理器	在模型之间传递中间表示，统一 shape 与数据结构
Stream 调度器	控制推理过程异步、并行、有序
上下文整合器	LLM 与视觉输出融合成最终响应（多轮对话、指令生成等）

✅ 异构模型协同设计建议：

关键点	推荐做法
延迟控制	TensorRT 模型靠近前端处理，LLM 异步等待特征输入
并发控制	各模型独立上下文，按需复用 buffer + stream
KV 管理	LLM 模型使用 cache 技术维持上下文，视觉模型 stateless
模型接口统一	构建中间协议（如 JSON Tensor / FeaturePack），确保不同后端能互操作

✅ 结论：多模态系统核心不是“LLM+CV”，而是一个融合感知、推理、语言理解、任务管理、缓存机制的分布式智能执行引擎。TensorRT 扮演的是其中最关键的感知推理角色。

5. 推理任务图设计：多模型推理依赖关系管理与执行策略

在多模态系统中，每一个用户请求其实对应着一个动态生成的“任务执行图”，由若干子模型、输入、上下文状态构成，调度逻辑类似于轻量版的编译器/执行器。

✅ 什么是多模型任务图？

输入请求 → 任务解析器 → 构造推理 DAG（有向无环图） → 异步调度执行 → 聚合输出

📦 示例：MiniGPT4 推理任务图

[用户输入图像 + 问题文本]
        ↓
[图像预处理] → [BLIP-2 Vision Encoder] → Feature Token
                               ↓
[Prompt 拼接 + Tokenizer]
                               ↓
        [QFormer / CrossAttention 模块]
                               ↓
              [LLM 解码 → 回答文本]

每一个节点都是一个「模型或模块」，每个边都是「数据依赖」。构造和执行这个图，就构成了一次完整推理流程。

🧠 为什么需要任务图调度机制？

原因	说明
模型间存在数据依赖	不能并发执行，如 LLM 需等待视觉模型输出
节点执行耗时差异大	可按优先级/耗时调度，提升总体吞吐
任务异步 + 高并发	调度器可控制每个节点何时启动、是否复用缓存
便于未来扩展 DAG 流程	支持多模态 Agent 的“思考链”、“搜索树”等逻辑

✅ 实现方式建议：

架构风格	技术选型建议
DAG 执行器	网络任务图：用 `networkx` 管理依赖；调度器：Python `asyncio` 或 `ray` 实现
节点调度策略	支持 delay 执行、按输入 readiness 执行、异步 future 绑定
模型节点封装	每个模型封装为一个可调度单元（含前/后处理 + 推理 +输出格式化）
特征节点缓存	支持图像 token 缓存、LLM 中间 token stream 缓存、cross-attn 编码缓存等
调度日志追踪	每个节点打日志，形成“推理链追踪”能力，便于 Debug 与优化性能瓶颈

6. 跨模型 Context 管理与 buffer 复用机制

协同系统中的多模型运行，很容易造成 显存浪费、重复申请、上下文污染 等问题，因此需要对 TensorRT 模型的 context、buffer 和 memory usage 做统一管理与复用优化。

✅ 跨模型资源调度面临的问题

资源	常见问题	典型表现
ExecutionContext	每个模型独占 Context，浪费显存	Context 多开崩溃或慢
CUDA buffer	多模型使用独立 buffer，存在冗余	内存碎片严重，malloc 成本高
Stream	同一任务使用多个 Stream 导致调度错乱	log 乱序、数据 race 条件触发
Plugin 上下文	多模型注册冲突，Plugin 报错或丢失	Plugin 找不到 creator 报错 500

🎯 统一 Context / Stream / Buffer 管理策略建议：

项目	建议做法
ExecutionContext	用对象池 + 请求 tag 分配，不建议频繁新建销毁
输入输出 Buffer	用 `pagelocked` + `mem_pool` 实现跨模型共享（如统一 image tensor）
CUDA Stream	每个任务一个主 stream，各子模型使用子 stream 或继承父 stream
Plugin 注册	初始化阶段完成所有 PluginCreator 注册，保持命名唯一性
模型 I/O 标准化	所有模型遵守统一输入输出结构，如：`{"input_tensor": ndarray, "meta": json}`

🧪 Python 实例（共享 buffer + 绑定多模型）：

class MemoryManager:
    def __init__(self):
        self.buffers = {}

    def get_buffer(self, shape, dtype):
        key = (shape, dtype)
        if key not in self.buffers:
            self.buffers[key] = cuda.pagelocked_empty(shape, dtype)
        return self.buffers[key]

# 用于 YOLO、CLIP 同时使用 640x640 图像输入
image_input = memory_manager.get_buffer((1,3,640,640), np.float32)

✅ 实践建议：

类型	建议
单线程部署	Context 可长期持有，Stream 可复用（需同步）
多线程/异步部署	每个线程持有独立 Context + Stream，避免并发冲突
多任务融合部署	构建 Engine/Context 缓存池 + IO buffer 复用策略
大模型部署	LLM 不建议使用 TensorRT Context，建议与 Triton / vLLM 协同

✅ 结论：跨模型资源管理的关键不是“能跑”，而是“多任务下不爆炸、显存复用到极致、调度有序不乱”。

7. Triton Server 多后端协同部署方案（LLM + CV 混合服务）

Triton Inference Server 提供了极其强大的多后端推理支持能力，可以在同一个服务中同时部署：

TensorRT 引擎（CV 模型）
PyTorch / ONNX 模型（轻量 NLP）
Python 脚本逻辑（处理调度 / 前后处理 / LLM API 调用）

这使得我们可以构建一个具备“LLM + CV 模型协同推理能力”的完整服务端框架。

✅ Triton 支持的后端类型（部分）：

后端类型	应用示例	是否支持多模态组合
TensorRT	YOLO / CLIP / SAM	✅ 图像推理主力引擎
PyTorch	QFormer / Tiny-LLaMA	✅ 支持轻量 NLP
Python Backend	ChatGLM-API / vLLM-HTTP 接口	✅ 实现 LLM 控制调度逻辑
Ensemble Model	多模型顺序执行组合	✅ 推荐用于轻量协同场景

📦 多后端混合部署目录结构示例：

models/
├── yolov8_det/
│   ├── 1/model.plan
│   └── config.pbtxt
├── clip_feat/
│   ├── 1/model.plan
│   └── config.pbtxt
├── llm_wrapper/
│   ├── 1/model.py         ← Python Backend
│   └── config.pbtxt
└── multimodal_orchestrator/
    ├── 1/model.py         ← Python 脚本控制逻辑
    └── config.pbtxt

✅ 可以将 Python Backend 作为“任务调度器”，调用内部或外部 API 来串联多模型的执行逻辑。

📄 Python Backend 示例（整合 CV + LLM）：

def execute(request):
    # 1. 从请求中提取图像
    image = preprocess(request.inputs["image"])

    # 2. 调用 YOLO 模型
    det_result = triton_infer("yolov8_det", image)

    # 3. 构建 prompt 调用 LLM（可调用远程 API）
    prompt = build_prompt(det_result)
    llm_result = requests.post("http://llm-api:8000", json={"prompt": prompt}).json()

    # 4. 封装最终输出
    return format_output(llm_result)

🎯 Triton 多后端实战建议：

类型	建议方案
图像前处理 / Tokenizer	放到 Python Backend 统一处理
CV 模型（YOLO/CLIP）	TensorRT 后端，精度可选 FP16/INT8
LLM 模型（vLLM/Qwen）	建议独立部署，Triton 脚本远程调用 API
多模型逻辑流程	使用 Python Backend 构建 Orchestrator 模块

8. 多模态任务的延迟优化技巧（预加载、Stream Pipeline、INT8）

多模态任务一旦串联，整个流程可能从 10ms 上升到 200~1000ms，必须采用一系列 任务级延迟优化技术，保障系统“既能跑，又不卡”。

✅ 优化策略一：预加载所有模型 + Lazy 初始化上下文

场景	优化点
第一次推理耗时大	预加载模型至内存，延迟创建 Context
LLM 模型上下文保持太久	分离 LLM 执行流程，由独立服务维持 KV 缓存
CV 模型上下文冗余	构建 Context 池，仅复用不频繁释放

✅ 优化策略二：Stream Pipeline 异步调度

构建异步任务流：

图像预处理 ─┬─▶ YOLO 推理 ─┬─▶ prompt 构造 ─▶ LLM 解码
            └─▶ CLIP 特征 ─┘

通过多 Stream 异步执行 + 多线程绑定，每一步可并行触发：

stream1 = cuda.Stream()
stream2 = cuda.Stream()

ctx1.execute_async_v2(..., stream1.handle)
ctx2.execute_async_v2(..., stream2.handle)

✅ 优化策略三：INT8 精度部署视觉模型

将 YOLOv5n、CLIP、SAM 等模型做 INT8 静态量化，使用 TensorRT 校准流程（见第六篇）：

mAP 降低 < 1%
延迟降低 30~60%
显存下降 40%

trtexec --onnx=yolov5n.onnx --int8 --calib=calib.cache ...

✅ 优化策略四：提前执行 + 缓存中间特征

图文问答中，图像预处理和推理可以在用户提问前就执行，生成图像 token 缓存：

@cache(image_id)
def run_clip(image_tensor):
    return clip_engine.run(image_tensor)

当用户提问时，仅追加文本流部分即可，延迟减少 60~90%。

🎯 延迟优化综合建议：

目标	技术手段
首次加载快	预热 + lazy context + engine 缓存池
推理不卡顿	多 Stream pipeline + 输入任务图异步调度
精度可接受下提速	INT8 部署视觉模型，QAT 优先级更高
连续对话不卡	保留 LLM KV cache，视觉特征缓存共享上下文

9. 多模型协同系统的精度与稳定性评估方法

在多模态系统中，评估一个模型是否“部署成功”，不能只看某一个输出，而应系统性评估整个链路的准确率 + 吞吐能力 + 延迟抖动 + 出错率，构成一套完整的工程评估体系。

✅ 多模态协同系统评估指标体系

指标类型	评估内容	推荐方法
功能正确性	文本回答是否准确、图片理解是否合理	人工评估 + 自动验证集（问答对）
精度保真性	TensorRT 部署后的精度是否接近原始模型	Top-1 准确率、IoU、BLEU、ROUGE
端到端延迟	用户请求 → 最终响应的耗时	设置10轮测试，统计均值/方差/尾延迟
稳定性	多线程并发下是否存在崩溃、超时、OOM	压测工具（如 locust）或日志分析
资源利用率	显存占用、GPU 利用率、CPU 饱和情况	`nvidia-smi` + 自定义 tracker
缓存命中率	图像 token 缓存、LLM KV cache 命中率	缓存命中 log + 测试集命中分析

📦 端到端精度回归验证方法（VQA 示例）

构建问答验证集：

[
  {"image_id": "dog.jpg", "question": "这只狗的品种是什么？", "expected_answer": "金毛寻回犬"},
  ...
]

自动化对比输出：

result = multimodal_pipeline(image, question)
score = rouge_score(result, expected_answer)

汇总指标（BLEU / ROUGE / F1）统计量，得出部署后误差控制区间。

✅ 多模态系统稳定性压测策略

目标	工具	执行方法
同时并发请求模拟	`locust` / `ab` / `wrk`	模拟 10/50/100 并发用户，请求持续 5min
跨模型资源释放验证	log + `nvidia-smi`	检查 context、stream、显存是否持续增长
崩溃边界识别	随机图文测试 + 模拟输入非法格式	观察错误日志，是否自动 fallback、重试机制生效

✅ 总结一句话：多模态部署不是“能跑”，而是“跑得对、跑得稳、跑得快、跑得久”。

10. 如果你觉得这篇内容对你有帮助……

🎉 恭喜你完整读完本篇！

你已经掌握了：

多模态协同部署的系统架构认知与场景分析；
LLM 与视觉模型在资源层面如何异构管理；
TensorRT 能力在 CLIP / SAM / YOLO 等模型上的应用建议；
构建多模型任务图的设计与调度技巧；
跨模型资源（context/buffer）复用策略；
Triton 多后端部署 + Python Orchestrator 管理方式；
延迟优化策略（预加载、stream pipeline、INT8）；
工程落地必备的评估方法与压测机制。

📌 如果这篇内容对你有启发、有帮助，请别忘了：

点个 👍 点赞
收藏 ⭐ 保存文章
关注 🔔 本专栏，获取后续 TensorRT 多模态系列更新

📚 项目资源推荐合集：

名称	用途	地址
Triton 多后端部署教程	Triton + Python Backend 模板	GitHub
BLIP2 × TensorRT 工程化样例	图文推理 + Triton 接入	GitHub
YOLOv8 TensorRT INT8 加速项目	兼容 Jetson / Orin	GitHub
MiniGPT-4 项目源码	构建 QFormer + ViT + Vicuna 系统参考	GitHub