环境:
vllm:0.5.0
大模型:glm-4-9b-chat
错误:
通过vllm.entrypoints.openai.api_server命令发布,
cmd = [
"python", "-m", "vllm.entrypoints.openai.api_server",
"--model", MODEL_PATH,
"--served-model-name", MODEL_NAME,
"--trust-remote-code",
"--enforce-eager",
# 允许处理LoRA适配器。
"--enable-lora",
#格式为name=path的LoRA模块配置信息。可以指定多个模块。
# 直接传递 LORA_List 列表中的每个元素作为单独的参数
*[item for pair in zip(["--lora-modules"] * len(LORA_List), LORA_List) for item in pair],
"--max-model-len", "75528",
# # 如果你有多张显卡,可以在这里设置成你的显卡数量
"--tensor-parallel-size", "2",
# 默认是0.9.占用显存的比例,请根据你的显卡显存大小设置合适的值,例如,如果你的显卡有80G,您只想使用24G,请按照2