一键加载GGUF!OpenVINO™ GenAI让大模型推理更快更轻

作者:武卓,AI软件布道师;杨粟, AI软件解决方案工程师;陈天萌,AI软件解决方案工程师

引言

大语言模型(LLM)正日益被优化,以适应本地端和边缘设备的部署。在众多轻量化推理格式中,GGUFGeneral Graph Unified Format,通用图统一格式)是最受欢迎的格式之一。它由 llama.cpp 社区提出,用于高效存储量化后的模型权重,以实现快速的 CPU 和 GPU 推理。

与传统的 PyTorch 或 ONNX 格式不同,GGUF 专为运行时效率而设计。它将模型张量以紧凑的二进制结构存储,支持内存映射(memory mapping)与低延迟加载。这使得它成为社区驱动模型的首选格式,尤其适用于在 AI PC 上进行本地、离线推理的场景。

然而,虽然 GGUF 模型可以在 llama.cpp 中无缝运行,但过去若要在英特尔硬件上加速推理,仍需先将 PyTorch 模型离线转换为 OpenVINO™ IR 格式(参考工具 GGUF-to-OpenVINO:https://github.com/yangsu2022/GGUF-to-OpenVINO)。

有了最新的 OpenVINO™ 2025.3 版本,这一情况发生了改变。

开发者现在可以直接加载 GGUF 模型,即时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值