lmdeploy部署 LLM 类 openai 服务

最新推荐文章于 2025-05-10 00:53:23 发布

藕霸～

最新推荐文章于 2025-05-10 00:53:23 发布

阅读量1k

点赞数 3

分类专栏： InternLM 文章标签： python 语言模型

本文链接：https://blog.youkuaiyun.com/weixin_45609124/article/details/138275548

版权

InternLM 专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了如何使用lmdeploy进行模型部署，涉及conda环境管理、Python版本设置、API服务参数，如model_path、server-port、跨域设置等，以及后端引擎选择和优化配置建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用lmdeploy来部署

安装过程

#	推荐CUDA版本高于12
conda create -n lmdeploy python=3.10
conda activate lmdeploy
pip install lmdeploy

一键启动

lmdeploy serve api_server internlm/internlm2-chat-7b --server-port 23333

参数详解
可以运行以下命令查看参数信息

lmdeploy serve api_server -h

参数名称
model_path	模型的路径。可以是以下选项之一：1、本地目录路径 2、在 Hugging Face 上托管模型的 model_id
server-name	用于提供服务的主机 IP。默认值：0.0.0.0
server-port	服务器端口。默认值：23333
allow-origins	跨域请求的允许来源列表。默认值：[‘*’]
allow-credentials	是否允许跨域请求携带凭据。默认值：False
allow-methods	跨域请求的允许 HTTP 方法列表。默认值：[‘*’]
allow-headers	跨域请求的允许 HTTP 头部列表。默认值：[‘*’]
qos-config-path	QoS 策略配置路径。默认值：.（当前目录）
backend	{pytorch,turbomind} 设置推理后端引擎。默认值：turbomind
log-level	{CRITICAL,FATAL,ERROR,WARN,WARNING,INFO,DEBUG,NOTSET} 设置日志级别。默认值：ERROR
api-keys	可选的 API 密钥列表，以空格分隔。默认值：None
ssl	启用 SSL。需要操作系统环境变量 ‘SSL_KEYFILE’ 和 ‘SSL_CERTFILE’。默认值：False
meta-instruction	ChatTemplateConfig 的系统提示。已弃用，请改用 --chat-template。默认值：None
chat-template	指定聊天模板配置的 JSON 文件或字符串。请参阅此处获取规范。默认值：None
adapters	设置 Lora 适配器路径。可以输入多个适配器的键值对，格式为 xxx=yyy。如果只有一个适配器，则只能输入适配器的路径。默认值：None
tp	张量并行计算中使用的 GPU 数。应为 2 的幂。默认值：1
model-name	要部署的模型名称，例如 llama-7b、llama-13b、vicuna-7b 等。您可以运行 lmdeploy list 获取支持的模型名称。默认值：None
session-len	序列的最大会话长度。默认值：None。
max-batch-size	最大批处理大小。默认值：128
cache-max-entry-count	k/v 缓存占用的 GPU 内存百分比。默认值：0.8
cache-block-seq-len	k/v 块中的令牌序列长度。对于 Turbomind 引擎，如果 GPU 计算能力 >= 8.0，则应是 32 的倍数，否则应是 64 的倍数。对于 PyTorch 引擎，如果指定了 Lora 适配器，则此参数将被忽略。默认值：64