
虽然训练大语言模型可能需要数百万甚至数十亿美元的基础设施,但这些劳动成果往往比你想象的更容易获得。许多最新发布的模型,包括阿里巴巴的Qwen 3和OpenAI的gpt-oss,甚至可以在普通PC硬件上运行。
如果你真的想了解大语言模型的工作原理,在本地运行一个模型是必不可少的。它还能让你无限制地访问聊天机器人,无需为优先访问权付费,也不会将数据发送到云端。虽然有更简单的工具,但在命令行中使用Llama.cpp能提供最佳性能和最多选项,包括将工作负载分配给CPU或GPU的能力,以及量化(即压缩)模型以实现更快输出的功能。
在底层,许多在PC或Mac上本地运行模型的最受欢迎框架,包括Ollama、Jan或LM Studio,实际上都是基于Llama.cpp开源基础构建的包装器,目标是简化复杂性并改善用户体验。
虽然这些便利功能让新手运行本地模型不那么令人生畏,但在性能和功能方面往往还有不足之处。
截至本文撰写时,Ollama仍不支持Llama.cpp的Vulkan后端,该后端提供更广泛的兼容性和通常更高的生成性能,特别是对AMD GPU和APU。虽然LM Studio确实支持Vulkan,但它缺乏对英特尔SYCL运行时和GGUF模型创建的支持。
在这个实践指南中,我们将探索Llama.cpp,包括如何构建和安装应用程序、在GPU和CPU上部署和服务大语言模型、生成量化模型、最大化性能以及启用工具调用。
**前提条件:**
Llamas.cpp几乎可以在任何设备上运行,包括树莓派。然而,为了获得最佳体验,我们建议使用至少16GB系统内存的机器。
虽然不是必需的,但来自英特尔、AMD或英伟达的专用GPU将大大提高性能。如果你确实有GPU,在开始之前需要确保系统上安装了最新的驱动程序。
对大多数用户来说,安装Llama.cpp就像下载ZIP文件一样简单。</

最低0.47元/天 解锁文章
557

被折叠的 条评论
为什么被折叠?



