目标:
部署一个结合大模型和RAG的,客服问题API,如果提问的问题在常见FAQ里,使用FAQ里数据,否则使用大模型回答问题。
要不依赖 Ollama 直接运行本地 Qwen 模型,可以使用 Transformers + vLLM 或 GPTQ 量化 来加载 Qwen2.5 模型。以下是最原生的方式来运行 Qwen2.5,并替换你的代码中的 Ollama 依赖。
✅ 1. 安装依赖
如果你还没有安装 transformers 和 vllm,请先运行:
pip install transformers vllm accelerate torch
如果你希望 使用量化版本(GPTQ),则还需要:
pip install auto-gptq
✅ 2. 下载 Qwen2.5 本地模型
你可以从 Hugging Face 下载 Qwen2.5:
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "Qwen/Qwen2.5-0.5B" # 这里可以换成其他 Qwen2.5 版本
# 下载并加载 Tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
# 下载并加载模型
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto", t
Langchain实现本地Qwen模型RAG客服问答

最低0.47元/天 解锁文章
3641

被折叠的 条评论
为什么被折叠?



