在本地运行MLX管道的实战指南_mlx 机器学习-优快云博客

本文链接：https://blog.youkuaiyun.com/jkgSFS/article/details/145314183

在这篇文章中，我们将深入探讨如何在本地环境中使用MLX管道来运行机器学习模型。MLX社区在Hugging Face Model Hub上托管了超过150个模型，所有模型都是开源的，供大众使用。通过MLXPipeline类，我们可以轻松在本地或通过LangChain调用这些模型以进行推理。

技术背景介绍

MLX致力于提供一个丰富的开源模型库，方便开发者进行机器学习项目的协作和开发。通过本地管道运行模型可以提高灵活性和实验效率，而无需依赖远程服务。

核心原理解析

MLX的本地管道依赖于LangChain及其MLXPipeline类。LangChain通过类方法为不同的模型架设了本地推理管道，允许你将不同的模型集成到你的应用中。

代码实现演示

下面的代码示例将展示如何使用MLXPipeline在本地加载并运行一个MLX模型。

安装必要的Python包

在开始之前，确保你已经安装以下必要的Python包：

%pip install --upgrade --quiet mlx-lm transformers huggingface_hub

加载模型

我们可以通过模型ID来加载模型：

from langchain_community.llms.mlx_pipeline import MLXPipeline

# 加载模型，通过模型ID和一些参数
pipe = MLXPipeline.from_model_id(
    "mlx-community/quantized-gemma-2b-it",
    pipeline_kwargs={"max_tokens": 10, "temp": 0.1},
)

# 使用现有的transformers pipeline加载
from mlx_lm import load

model, tokenizer = load("mlx-community/quantized-gemma-2b-it")
pipe = MLXPipeline(model=model, tokenizer=tokenizer)

创建推理链

一旦模型加载到内存中，我们可以使用PromptTemplate将模型与提示结合起来形成一个推理链：

from langchain_core.prompts import PromptTemplate

# 定义提示模板
template = """Question: {question}

Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)

# 组合提示和模型形成推理链
chain = prompt | pipe

# 输入问题并生成答案
question = "What is electroencephalography?"
print(chain.invoke({"question": question}))