使用MLX Local Pipelines进行本地模型推理

用MLX Local Pipelines进行本地模型推理

最新推荐文章于 2025-11-26 14:44:03 发布

原创最新推荐文章于 2025-11-26 14:44:03 发布 · 333 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#php #机器学习

MLX是一个社区平台，提供了超过150个开源机器学习模型，用户可以通过Hugging Face Model Hub轻松访问和使用这些模型。MLX的模型可通过LangChain实现本地推理，或者通过MLXPipeline类调用其托管的推理端点。

本文将深入解析如何使用MLX Local Pipelines进行模型加载和推理，并提供相关的代码示例。

技术背景介绍

MLX社区在机器学习领域提供了丰富的资源，用户可以在本地运行这些模型，或通过LangChain进行托管推理。MLXPipeline类使得模型调用简便易行，无论是通过本地管道还是端点调用，用户都能轻松集成这些强大的模型。

核心原理解析

MLXPipeline类提供了一个便捷的接口，可以用来加载模型并执行机器学习推理。用户可以通过from_model_id方法直接从MLX社区加载模型，也可以利用transformers库自行加载模型，然后传递给MLXPipeline类。

代码实现演示

以下代码展示了如何使用MLXPipeline在本地加载和运行MLX模型。

安装必要的Python包

在开始之前，确保安装了相应的Python包：

%pip install --upgrade --quiet mlx-lm transformers huggingface_hub

使用MLXPipeline加载和运行模型

from langchain_community.llms.mlx_pipeline import MLXPipeline

# 通过模型ID加载MLX模型
pipe = MLXPipeline.from_model_id(
    "mlx-community/quantized-gemma-2b-it",
    pipeline_kwargs={"max_tokens": 10, "temp": 0.1},
)

# 使用PromptTemplate创建问题链
from langchain_core.prompts import PromptTemplate

template = """Question: {question}

Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)

chain = prompt | pipe

question = "What is electroencephalography?"
print(chain.invoke({"question": question}))