本地运行大型语言模型(LLM)的实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/fGVBSAbe/article/details/145273073

在最近的潮流中，我们看到项目如 llama.cpp、Ollama、GPT4All、llamafile 等的流行，验证了在本地（即在自己的设备上）运行大型语言模型(LLM)的需求。这种需求至少有两个重要的好处：

隐私：数据不会发送给第三方，避开了商业服务的使用条款。
成本：没有推理费用，这对需要大量计算的应用（例如长时间运行的模拟、摘要等）特别重要。

技术背景介绍

要在本地运行LLM，需要以下几个要素：

开源LLM：一个可以自由修改和共享的开源LLM。
推理能力：能够在设备上以可接受的延迟运行此LLM。

核心原理解析

开源LLM的性能可以通过各种排行榜（如LmSys、GPT4All、HuggingFace）评估。推理部分有几个框架支持在不同设备上进行开源LLM的推理，例如llama.cpp、gpt4all、ollama等，这些框架提供了量化和高效的推理实现。

代码实现演示

以下是如何使用Ollama框架在macOS上轻松运行LLM推理的快速入门示例。

# 安装必要的包
%pip install -qU langchain_ollama

# 导入OllamaLLM
from langchain_ollama import OllamaLLM

# 配置模型
llm = OllamaLLM(model="llama3.1:8b")

# 执行推理
llm.invoke("The first man on the moon was ...")

# 示例输出
# 输出可能是关于阿姆斯特朗的历史描述，这取决于模型的训练数据

如果希望流式输出生成的tokens，可以使用以下代码：

for chunk in llm.stream("The first man on the moon was ..."):
    print(chunk, end="|", flush=True)

应用场景分析

本地LLM的应用场景包括：

隐私需求：处理私密数据（如日记）的用户不希望共享这些信息。
成本考虑：文字预处理（提取/标记）、摘要以及模拟等代理任务是耗费tokens的任务。

此外，还可以使用开源LLM进行微调，从而提高特定任务的性能。

实践建议

选择合适的框架：根据硬件及需求选择如llama.cpp、ollama等框架。
优化硬件使用：特别是对于GPU的使用，确保按照框架要求进行设置。如采用Metal API在Apple设备上利用GPU。
关注量化：通过量化降低模型权重的内存占用，提高推理效率。

如果遇到问题欢迎在评论区交流。

—END—