一键加载GGUF！OpenVINO™ GenAI让大模型推理更快更轻

原创

已于 2025-10-13 17:45:17 修改 · 924 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-10-13 17:43:32 首次发布

作者：武卓，AI软件布道师；杨粟， AI软件解决方案工程师；陈天萌，AI软件解决方案工程师

引言

大语言模型（LLM）正日益被优化，以适应本地端和边缘设备的部署。在众多轻量化推理格式中，GGUF（General Graph Unified Format，通用图统一格式）是最受欢迎的格式之一。它由 llama.cpp 社区提出，用于高效存储量化后的模型权重，以实现快速的 CPU 和 GPU 推理。

与传统的 PyTorch 或 ONNX 格式不同，GGUF 专为运行时效率而设计。它将模型张量以紧凑的二进制结构存储，支持内存映射（memory mapping）与低延迟加载。这使得它成为社区驱动模型的首选格式，尤其适用于在 AI PC 上进行本地、离线推理的场景。

然而，虽然 GGUF 模型可以在 llama.cpp 中无缝运行，但过去若要在英特尔硬件上加速推理，仍需先将 PyTorch 模型离线转换为 OpenVINO™ IR 格式（参考工具 GGUF-to-OpenVINO：https://github.com/yangsu2022/GGUF-to-OpenVINO）。

有了最新的 OpenVINO™ 2025.3 版本，这一情况发生了改变。

开发者现在可以直接加载 GGUF 模型，即时

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。