vllm0.5.0发布lora模型，报ValueError: max_num_batched_tokens must be ＜= 65528 when LoRA is enabled.

最新推荐文章于 2025-07-22 11:36:16 发布

云游

最新推荐文章于 2025-07-22 11:36:16 发布

阅读量1.1k

点赞数 13

CC 4.0 BY-SA版权

分类专栏： vllm 文章标签： vllm python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xinvictory/article/details/144563358

环境：

vllm:0.5.0

大模型：glm-4-9b-chat

错误：

通过vllm.entrypoints.openai.api_server命令发布，

cmd = [

"python", "-m", "vllm.entrypoints.openai.api_server",

"--model", MODEL_PATH,

"--served-model-name", MODEL_NAME,

"--trust-remote-code",

"--enforce-eager",

# 允许处理LoRA适配器。

"--enable-lora",

#格式为name=path的LoRA模块配置信息。可以指定多个模块。

# 直接传递 LORA_List 列表中的每个元素作为单独的参数

*[item for pair in zip(["--lora-modules"] * len(LORA_List), LORA_List) for item in pair],

"--max-model-len", "75528",

# # 如果你有多张显卡，可以在这里设置成你的显卡数量

"--tensor-parallel-size", "2",

# 默认是0.9.占用显存的比例，请根据你的显卡显存大小设置合适的值，例如，如果你的显卡有80G，您只想使用24G，请按照2

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。