【sglang模型部署】sglang部署embedding模型之gte-Qwen2-7B-instruct,然后接入dify知识库,做RAG系统。

gte-Qwen2-7B-instruct 是 gte(通用文本嵌入)模型家族的最新成员,截至2024年6月16日,该模型在英文和中文的大规模文本嵌入基准测试MTEB(Massive Text Embedding Benchmark)中均位列榜首。

近期,Qwen团队发布了Qwen2系列模型,我们基于Qwen2-7B大语言模型训练了gte-Qwen2-7B-instruct模型。相较于前代gte-Qwen1.5-7B-instruct模型,本模型在微调阶段采用了相同的训练数据和训练策略,主要改进在于将基础模型升级为Qwen2-7B。鉴于Qwen2系列模型较Qwen1.5系列的显著提升,我们有理由预期本嵌入模型也将展现出一致的性能飞跃。

该模型融合了多项关键技术突破:
- 双向注意力机制的整合,显著增强上下文理解能力
- 指令微调仅应用于查询端,实现高效流程优化
- 跨领域多场景的泛化训练,覆盖多语言海量文本语料。训练过程结合弱监督与监督数据,确保模型在多语言环境和多样化下游任务中的卓越适用性

模型信息
参数量:70亿
嵌入维度:3584
最大输入长度:32K tokens

系统要求
transformers>=4.39.2
flash_attn>=2.5.6

该模型大概需要18G 显存。

模型部署命令行:

python -m sglang.launch_server --model-path ./gte-Qwen2-7B-instruct --is-embedding --host 0.0.0.0 --port 8080 --mem-fraction-static 0.701

模型测试代码:

import openai

client = openai.Client(base_url="http://192.168.10.198:8080/v1", api_key="None")

# Text embedding example
response = client.embeddings.create(
    model="./gte-Qwen2-7B-instruct",
    input="中国的首都在哪?",
)

embedding = response.data[0].embedding[:10]
print(embedding)
print(len(response.data[0].embedding))

模型部署完毕后,可以接入dify,开发RAG系统。

### GTE-Qwen2-0.5B-Instruct 模型概述 GTE-Qwen2-0.5B-Instruct 是通义千问系列中的一个轻量级指令微调模型,基于 Qwen2-0.5B 构建。该模型经过优化,在较小规模参数的情况下仍能提供高质量的对话能力和其他自然语言处理任务的支持[^1]。 为了使用 GTE-Qwen2-0.5B-Instruct 模型,通常可以通过以下方式获取和部署--- ### 下载与安装方法 #### 方法一:通过 Xinference 平台启动 如果计划在本地环境中运行 GTE-Qwen2-0.5B-Instruct 嵌入模型,可以按照以下流程操作: 1. **访问 Xinference 控制面板** 登录到已安装好的 Xinference 环境管理界面。 2. **选择 Embedding Models 类别** 在控制面板中导航至 `Embedding Models` 部分,并搜索目标模型名称 `gte-Qwen2`[^3]。 3. **配置模型实例** - 设置副本数量 (`Replica`) 为 1。 - 将设备选项设置为 GPU(如果有可用资源),或者 CPU(作为备选方案)。 4. **启动模型** 单击左侧底部按钮触发下载过程并加载模型。一旦完成初始化,即可查看其状态切换至 `Running Models` 页面。 注意:在此过程中可能会遇到依赖库缺失错误提示,例如缺少 Python 库 `sentence-transformers`。此时需手动执行命令来补充必要组件: ```bash pip install sentence-transformers ``` #### 方法二:直接从 Hugging Face Hub 获取预训练权重文件 另一种途径是从官方支持站点如 Hugging Face Model Repository 中检索对应条目 “Qwen/gte-qwen2-0.5b-instruct”。具体步骤如下: - 浏览至链接位置; - 利用 Git LFS 工具克隆整个存储库结构或将单个压缩包形式的数据集提取出来保存于指定目录路径之下;最后再依据个人需求编写适配脚本接入项目框架里头去运用它吧! --- ### 示例代码片段展示如何加载及测试该模型功能 以下是利用 Transformers 库加载上述提及版本号之一——即 gte-qwen2-0.5b-instruct 的简单例子供参考学习所用: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/gte-qwen2-0.5b-instruct") model = AutoModelForCausalLM.from_pretrained("Qwen/gte-qwen2-0.5b-instruct") input_text = "你好啊" inputs = tokenizer(input_text, return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_length=50) result = tokenizer.decode(outputs[0], skip_special_tokens=True) print(result) ``` 以上程序段展示了怎样快速上手这款特定大小级别的变体型号来进行基础交流互动演示效果呈现给用户看哦~ --- ### 注意事项 当尝试导入某些模块失败时,请务必确认所有必需软件包均已正确安装到位后再重新尝试一次完整的构建流程动作哈~比如刚才提到过的那个关于句子转换器方面的报错情况就需要先额外增加相应扩展才行啦! ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值