TensorRT-LLM的AutoDL部署

安装cuda

wget https://developer.download.nvidia.com/compute/cuda/12.2.1/local_installers/cuda_12.2.1_535.86.10_linux.run

chmod +x chmod +x cuda_12.2.1_535.86.10_linux.run

./cuda_12.2.1_535.86.10_linux.run

安装cudnn

必须安装好cuda之后,才能成功安装

dpkg -i cudnn-local-repo-ubuntu2204-8.9.6.50_1.0-1_amd64.deb
cd /var/cudnn-local-repo-ubuntu2204-8.9.6.50/ && dpkg -i *.deb

ldconfig -v | grep cudnn

安装tensorrt

wget https://developer.nvidia.com/downloads/compute/machine-learning/tensorrt/secure/9.1.0/tars/tensorrt-9.1.0.4.linux.x86_64-gnu.cuda-12.2.tar.gz

tar -xvzf tensorrt-9.1.0.4.linux.x86_64-gnu.cuda-12.2.tar.gz

mv TensorRT-9.1.0.4/ /usr/local/tensorrt
rm tensorrt-9.1.0.4.linux.x86_64-gnu.cuda-12.2.tar.gz

# 配置
echo "/usr/local/tensorrt/lib" > /etc/ld.so.conf.d/tensorrt.conf

# 查看
ldconfig -v | grep nvinfer

# 设置环境
echo "export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/tensorrt/lib
### TensorRT-LLM 部署指南 TensorRT-LLM 是一种高效的工具,用于加速大型语言模型(LLMs)在 NVIDIA GPU 上的推理性能。以下是关于其部署的具体说明: #### 1. 安装与环境准备 为了成功部署 TensorRT-LLM,需先完成必要的安装和配置工作。这包括以下几个方面: - **安装 TensorRT-LLM**:通过官方文档或项目地址获取最新版本并进行安装[^2]。 - **启动容器**:推荐使用 Docker 或 Singularity 创建隔离的运行环境,以便管理依赖项。 - **Python 依赖**:确保已安装所有必需的 Python 库,这些库通常可以通过 `requirements.txt` 文件指定。 ```bash pip install -r requirements.txt ``` #### 2. 转化模型格式 由于 TensorRT-LLM 使用特定优化后的张量表示形式来存储权重数据,因此需要将原始模型文件转换为目标格式。此过程可能涉及以下操作: - 加载预训练模型参数; - 将其序列化为兼容 TensorRT 的二进制结构。 具体实现可以参考如下代码片段: ```python from tensorrt_llm import Model, BuilderConfig model_path = "/path/to/pretrained/model" output_engine_file = "./converted_model.engine" builder_config = BuilderConfig() llm_instance = Model.from_pretrained(model_path) with open(output_engine_file, 'wb') as f: engine_data = llm_instance.build(builder_config) f.write(engine_data.serialize()) ``` 上述脚本展示了如何加载一个预先存在的 LLM 并将其编译成适合 TensorRT 执行引擎使用的 `.engine` 文件[^1]。 #### 3. 运行与部署 一旦完成了前两步,则可着手于实际应用阶段——即让构建好的 TRT Engine 开始处理输入请求。这里有两种主要方式可供选择: - 利用内置的 Python 接口直接调用; - 构建独立的服务端程序并通过 RESTful API 提供外部访问接口。 对于前者而言,只需简单实例化 Runtime 类即可;而对于后者来说,则还需要额外考虑诸如负载均衡、错误恢复机制等问题。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值