甭管是个人还是企业都能部署的Mistral-Small3.1,远超同级别的模型

本文已首发于 秋码记录
微信公众号:你我杂志刊
在这里插入图片描述

如果你也想搭建一个与秋码记录一样的网站,可以浏览我的这篇 国内 gitee.com Pages 下线了,致使众多站长纷纷改用 github、gitlab Pages 托管平台

秋码记录网站使用的主题是开源的,目前只在github.com开源。
hugo-theme-kiwi开源地址:https://github.com/zhenqicai/hugo-theme-kiwi

这不Gemma3刚开源出来,立马炸裂了整个“科技界”,还没等它把“热度”持续火下去,Mistral-Small3.1却再次掀起了“科技界”的热度。

Mistral-Small3.1Mistral AI推出的240亿参数开源多模态模型,基于Transformer架构优化设计,核心特性包括:

  • 多模态支持:支持文本与图像结合的任务处理,扩展了应用场景边界。
  • 128k超长上下文窗口:可一次性处理长篇文档或复杂对话,显著优于前代的32k窗口。
  • 高效推理引擎:采用量化技术优化推理速度,每秒处理150个token,延迟低至毫秒级,适合实时交互场景。
  • 本地化部署能力:支持在RTX 4090显卡或32GB内存的Windows设备上运行,通过Ollama等工具实现轻量化部署.

在这里插入图片描述

通过Ollama部署

那么,接下来,我们在本地通过Ollama来部署Mistral-Small3.1

如果你还没安装Ollama的话,那么,你可以去它的官网进行下载安装,Ollama官网

我这里选择了量化版,根据自己电脑的硬件设备来下载对应的量化版本

在这里插入图片描述

拷贝命令,直接黏贴到Terminal中。

ollama run MHKetbi/Mistral-Small3.1-24B-Instruct-2503:q6_K_L

在这里插入图片描述

在这里插入图片描述

主要特性和功能

  • 轻量级:Mistral Small 3.1 可以在单个 RTX 4090 或具有 32GB RAMMac 上运行。这使其非常适合设备上的使用情况。
  • 快速响应对话帮助:非常适合虚拟助手和其他需要快速、准确响应的应用程序。
  • 低延迟函数调用:能够在自动化或代理工作流程中快速执行函数
  • 针对专业领域进行微调:Mistral Small 3.1 可以针对特定领域进行微调,打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。
  • 高级推理的基础:社区在开放的 Mistral 模型之上构建模型的方式继续给留下深刻印象。仅在过去几周,就看到了几个基于 Mistral Small 3 构建的出色推理模型,例如Nous ResearchDeepHermes 24B。为此,发布了 Mistral Small 3.1 的基础和指令检查点,以便进一步对模型进行下游定制。

如果你本地电脑硬件资源有限的话,那么是可以前往Mistral 官方平台上使用,上面是满血版【点击前往

<think>嗯,用户问的是如何用vLLM serve运行量化版Mistral-Small-3.1-24B-Instruct-2503模型。首先,我需要回想一下vLLM的相关知识。vLLM是一个高效的推理和服务库,支持大模型部署,特别是对量化模型的支持可能需要注意一些参数。 然后,用户提到的模型Mistral-Small-3.1-24B-Instruct-2503,这应该是一个24B参数的模型,经过量化处理。量化通常指的是减少模型的精度,比如从FP16到INT8或INT4,以减少内存占用和提高推理速度。不过,vLLM是否支持该模型量化版本呢?需要查阅vLLM的文档,看它支持的量化方法和模型结构。 接下来,安装vLLM应该是第一步,用户可能需要使用pip安装最新版本。然后,运行模型的时候,可能需要指定模型路径或者Hugging Face上的模型名称。例如,使用--model参数。如果是量化模型,可能需要额外的参数,比如--quantization,但具体是哪个选项呢?比如awq、gguf或者其他格式。比如,vLLM支持AWQ量化,所以可能需要指定--quantization awq。 另外,模型的分发格式也很重要。如果模型是以AWQ格式发布的,用户需要确保下载的是对应的量化版本。例如,Hugging Face上可能有不同的分支,比如模型名字后面跟着“-awq”。如果用户自己做了量化,可能需要转换并保存为vLLM支持的格式。 然后,运行命令可能像这样:python -m vllm.entrypoints.api_server --model Mistral-Small-3.1-24B-Instruct-2503 --quantization awq --tensor-parallel-size 2。这里,tensor-parallel-size是根据GPU数量设置的,需要用户根据自己的硬件调整。 还要注意内存和显存的需求。量化模型虽然减少了内存占用,但24B模型即使量化后可能还是需要多块GPU。比如,使用两块24GB的GPU,或者根据量化后的参数大小来计算。 最后,测试服务是否正常运行,可以通过curl命令发送请求,或者使用Python客户端。需要给出示例代码,方便用户验证。 可能遇到的问题包括:vLLM版本不支持该模型,需要更新;量化方法不匹配,导致加载失败;显存不足,需要调整并行数或batch size。这时候可能需要建议用户检查日志,调整参数,或者查阅vLLM的文档和社区支持。 总结步骤应该是:安装vLLM,准备量化模型,运行服务命令,调整参数,测试服务。同时,提醒用户注意硬件要求和可能的兼容性问题。</think>### 使用vLLM Serve运行量化版Mistral-Small-3.1-24B-Instruct-2503的步骤 #### 1. 环境准备 - 确保GPU驱动支持CUDA 11.8+ - 安装vLLM最新版本: ```bash pip install vllm ``` #### 2. 模型准备 - 若使用Hugging Face仓库的量化模型: ```bash # 下载AWQ格式的量化模型(假设模型已发布) MODEL_NAME="Mistral-Small-3.1-24B-Instruct-2503-AWQ" ``` - 若需自行量化: ```python from vllm import LLM llm = LLM(model="原始模型路径", quantization="awq") # 支持awq/gptq等格式 llm.save_pretrained("输出路径") ``` #### 3. 启动服务 ```bash python -m vllm.entrypoints.api_server \ --model $MODEL_NAME \ --quantization awq \ # 与模型格式对应 --tensor-parallel-size 2 \ # GPU数量 --max-model-len 4096 # 根据显存调整 ``` #### 4. 服务调用示例 ```python import requests response = requests.post("http://localhost:8000/generate", json={ "prompt": "如何解释量子纠缠?", "max_tokens": 256, "temperature": 0.7 } ) print(response.json()["text"]) ``` #### 关键参数说明 | 参数 | 作用 | 推荐值 | |------|------|--------| | `--quantization` | 指定量化格式 | awq/gptq | | `--tensor-parallel-size` | GPU并行数 | 根据显存选择 | | `--max-model-len` | 最大序列长度 | 4096/8192 | ### 常见问题排查 1. **CUDA内存不足**:减小`--max-model-len`或增加`--tensor-parallel-size` 2. **量化格式不匹配**:确认模型文件包含`.awq`或`.gptq`后缀 3. **加载失败**:检查vLLM版本是否≥0.3.3(支持最新量化特性)[^2]
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甄齐才

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值