Mac上跑大模型必看：彻底搞懂GGUF与MLX的区别和联系

最新推荐文章于 2025-09-03 09:16:41 发布

原创最新推荐文章于 2025-09-03 09:16:41 发布 · 691 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#macos #人工智能 #深度学习

1 定义和用途

1.1 GGUF（原名 GGML）

现称 GGUF（以前是 GGML），最初是一个用于量化和推理大语言模型的格式。

1.1.1 主要作用

提供一种高效的模型存储格式，特别是支持量化模型（如4-bit、5-bit等低精度模型）。

被广泛用于本地化部署小到中型的LLM（如 LLaMA 系列的轻量版本）。

1.1.2 优点

占用内存小，适合在PC运行
支持多种推理后端，如 llama.cpp 等。

1.1.3 典型工具/项目

llama.cpp：一个基于 C/C++ 的项目，用 CPU 推理 LLaMA 模型，使用 GGUF 格式。

1.2 MLX（Apple Machine Learning eXtension）

由 Apple 开发：专门为苹果设备（Mac、iPad、iPhone）设计的机器学习框架。

主要作用

在苹果生态中高效运行机器学习模型（包括大语言模型）。
支持 GPU 加速（Apple Silicon 的 NPU）。

特点

针对苹果芯片优化（M1/M2/M3 等）。
可以加载 PyTorch 模型，并进行本地推理。

常见用法

使用 mlx 库加载并运行模型（如 LLaMA、TinyLlama 等）
可以将 GGUF 格式的模型转换为 MLX 格式运行

2 关键区别

特性	GGUF	MLX
类型	模型存储格式（主要是量化模型）	机器学习框架（适用于苹果平台）
是否依赖硬件	否，但常用于 CPU 推理	是，专为 Apple Silicon（M 系列芯片）优化
平台支持	多平台（Windows, Linux, macOS）	苹果平台为主
是否支持 GPU	不直接支持 GPU	支持 Apple GPU/NPU 加速
是否支持量化	是，GGUF 就是以量化模型著称	MLX 可以运行量化模型，但不是其核心特性
常见工具	llama.cpp	mlx（Apple 自研库）
是否开源	是	是

3 是否可以一起使用？

✅ 可以！

先将 HuggingFace 上的标准模型（如 LLaMA）转换为 GGUF 格式（使用 llama.cpp 工具链）
再把 GGUF 模型进一步转换为 MLX 格式（使用 Apple 提供的转换脚本）
最后在 Mac 或其他苹果设备上使用 mlx 框架进行推理

这种组合可以在苹果设备上实现高性能、低内存占用的本地大模型推理。

4 总结

GGUF 是一种高效的模型存储格式（尤其是量化模型），而 MLX 是苹果开发的机器学习框架，两者可以结合使用，在苹果设备上实现高性能本地推理。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。