GGUF、Safetensors、ONNX三种格式

爱吃芝麻汤圆

于 2025-07-04 18:27:38 发布

阅读量645

点赞数 20

CC 4.0 BY-SA版权

分类专栏： # AI知识 # 产品背景知识文章标签：模型格式人工智能

本文链接：https://blog.youkuaiyun.com/woshihlf/article/details/149123005

25 篇文章

订阅专栏

15 篇文章

订阅专栏

GGUF 格式的模型文件可以用于各种应用场景，例如：

总而言之，GGUF 是一种重要的 LLM 文件格式，它通过提高存储效率、加载速度和兼容性，简化了 LLM 的使用和部署，并有望成为未来大模型文件标准格式之一。

参考：https://github.com/karminski/one-small-step/blob/main/20250122-how-to-run-gguf-LLM-model/how-to-run-gguf-LLM-model.md

安全性优先： 彻底解决了 pickle 格式的远程代码执行（RCE）漏洞风险, 通过限制反序列化操作仅加载张量数据, 从根本上杜绝了恶意代码注入的可能性.
快速加载： 采用零拷贝（zero-copy）技术实现, 在CPU上, 如果文件已缓存, 则可以完全0拷贝（需满足张量连续存储条件）
跨框架支持： 原生支持 PyTorch、TensorFlow、JAX 等主流深度学习框架, 支持多 GPU 设备间的无缝数据共享.
轻量高效： 文件体积与性能经过优化, 支持与 LZ4/Zstandard 等压缩算法配合使用（注意：格式本身不包含压缩功能）
类型安全： 通过严格的元数据校验确保数据类型和形状的一致性, 避免因类型错误导致的运行时崩溃.

在这里插入图片描述
(图片来自 ultralytics.com)

ONNX（Open Neural Network Exchange）是一种开放的神经网络交换格式。
它由微软和Facebook于2017年共同推出，现由Linux基金会的LF AI托管，旨在解决不同深度学习框架之间的互操作性问题，实现模型在不同平台和工具链之间的无缝迁移。

特性	GGUF	Safetensors	ONNX
开发方	GGML 团队 (llama.cpp)	Hugging Face	微软/Facebook (现属 Linux 基金会)
设计目标	轻量级本地推理 (CPU/GPU)	安全高效的张量存储	跨框架模型交换与推理优化
主要用途	本地运行量化后的 LLM	安全分发模型权重	跨框架训练/部署流水线
安全性	无已知风险	专防 pickle 的 RCE 漏洞	依赖运行时环境
硬件支持	优先 CPU，部分 GPU 优化	框架相关 (PyTorch/TF/JAX)	多硬件后端 (CPU/GPU/FPGA)
典型文件体积	极小 (4-8bit 量化)	原始权重大小	中等 (含计算图元数据)

关系：

https://github.com/karminski/one-small-step/blob/main/20250113-what-is-gguf/what-is-gguf.md
https://github.com/karminski/one-small-step/blob/main/20250122-how-to-run-gguf-LLM-model/how-to-run-gguf-LLM-model.md
https://github.com/karminski/one-small-step/blob/main/20250210-what-is-safetensors/what-is-safetensors.md
https://github.com/karminski/one-small-step/blob/main/20250211-what-is-onnx/what-is-onnx.md