作者:武卓,AI软件布道师;杨粟, AI软件解决方案工程师;陈天萌,AI软件解决方案工程师
引言
大语言模型(LLM)正日益被优化,以适应本地端和边缘设备的部署。在众多轻量化推理格式中,GGUF(General Graph Unified Format,通用图统一格式)是最受欢迎的格式之一。它由 llama.cpp 社区提出,用于高效存储量化后的模型权重,以实现快速的 CPU 和 GPU 推理。
与传统的 PyTorch 或 ONNX 格式不同,GGUF 专为运行时效率而设计。它将模型张量以紧凑的二进制结构存储,支持内存映射(memory mapping)与低延迟加载。这使得它成为社区驱动模型的首选格式,尤其适用于在 AI PC 上进行本地、离线推理的场景。
然而,虽然 GGUF 模型可以在 llama.cpp 中无缝运行,但过去若要在英特尔硬件上加速推理,仍需先将 PyTorch 模型离线转换为 OpenVINO™ IR 格式(参考工具 GGUF-to-OpenVINO:https://github.com/yangsu2022/GGUF-to-OpenVINO)。
有了最新的 OpenVINO™ 2025.3 版本,这一情况发生了改变。
开发者现在可以直接加载 GGUF 模型,即时

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



