6种方法在本地运行LLM

原创已于 2023-12-28 15:03:16 修改 · 2.6k 阅读

27 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#LLM #llama

于 2023-12-28 15:02:44 首次发布

ChatGPT 专栏收录该内容

30 篇文章

订阅专栏

本文探讨了在本地运行大型语言模型（LLM）的各种方法，包括HuggingFace/Transformers、LangChain、Llama.cpp/Ollama等，强调了它们的优缺点以及隐私保护的重要性。

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情

设定期望

1.Hugging Face and Transformers

商业人工智能和大型语言模型（LLM）有一个很大的缺点：隐私！在处理敏感或专有数据时，我们无法从这些工具中受益。

这使我们了解如何在本地运营私人LLM。开源模型提供了一种解决方案，但它们也有自己的挑战和好处。

和我一起探索可以在自己的计算机上运行的 ChatGPT 的本地替代方案。

设定期望

开源非常广泛，有数千种可用模型，从 Meta 等大型组织提供的模型到个人爱好者开发的模型各不相同。然而，运行它们也面临着一系列挑战：

它们可能需要强大的硬件：充足的内存，可能还需要 GPU
虽然开源模型正在改进，但它们通常无法与 ChatGPT 等更完善的产品的功能相媲美，而 ChatGPT 则受益于大型工程师团队的支持。
并非所有型号都可以商业使用。

正如谷歌泄露的一份文件所表明的那样，开源模型和闭源模型之间的差距正在缩小。

1.Hugging Face and Transformers

Hugging Face相当于 Docker Hub 的机器学习和人工智能功能，提供了大量的开源模型。幸运的是，Hugging Face 定期对模型进行基准测试，并提供排行榜来帮助选择可用的最佳模型。

Hugging Face 还提供了Transformers，这是一个 Python 库，可以简化本地 LLM 的运行。以下示例使用该库运行旧版 GPT-2 microsoft/DialoGPT-medium模型。第一次运行时，变形金刚将下载模型，您可以与其进行五次交互。该脚本还需要安装PyTorch 。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-medium", padding_side='left')
model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-medium")
# source: https://huggingface.co/microsoft/DialoGPT-medium
# Let's chat for 5 lines
for step in range(5):
    # encode the new user input, add the eos_token and return a tensor in Pytorch
    new_user_input_ids = tokenizer.encode(input(">> User:") + tokenizer.eos_token, return_tensors='pt')
    # append the new user input tokens to the chat history
    bot_input_ids = torch.cat([chat_history_ids, new_user_input_ids], dim=-1) if step > 0 else new_user_input_ids
    # generated a response while limiting the total chat history to 1000 tokens, 
    chat_history_ids = model.generate(bot_input_ids, max_length=1000, pad_token_id=tokenizer.eos_token_id)
    # pretty print last output tokens from bot
    print("DialoGPT: {}".format(tokenizer.decode(chat_history_ids[:, bot_input_ids.shape[-1]:][0], skip_special_tokens=True)))

Transformers优点：

自动模型下载
可用的代码片段
非常适合实验和学习

Transformers缺点：

需要对 ML 和 NLP 有深入的了解
编码和配置技能是必要的

2.LangChain

我们可以在本地运行 LLM 的另一种方法是使用LangChain。LangChain是一个用于构建人工智能应用程序的Python框架。它提供抽象和中间件，以便在其支持的模型之一之上开发人工智能应用程序。例如，以下代码向microsoft/DialoGPT-medium模型询问一个问题：

from langchain.llms.huggingface_pipeline import HuggingFacePipeline

hf = HuggingFacePipeline.from_model_id(
    model_id="microsoft/DialoGPT-medium", task="text-generation", pipeline_kwargs={"max_new_tokens": 200, "pad_token_id": 50256},
)
from langchain.prompts import PromptTemplate
template = """Question: {question}
Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)
chain = prompt | hf
question = "What is electroencephalography?"
print(chain.invoke({"question": question}))

LangChain 优点：

更轻松的模型管理
用于 AI 应用程序开发的有用实用程序

LangChain 缺点：

速度有限，与变形金刚相同
您仍然必须对应用程序的逻辑进行编码或创建合适的 UI。

3. Llama.cpp

Llama.cpp是一个基于 C 和 C++ 的 LLM 推理引擎，针对 Apple 芯片进行了优化并运行 Meta 的 Llama2 模型。

一旦我们克隆存储库并构建项目，我们就可以使用以下命令运行模型：

$ ./main -m /path/to/model-file.gguf -p "Hi there!"

Llama.cpp 优点：

比基于 Python 的解决方案性能更高
在中等硬件上支持 Llama 7B 等大型模型
提供绑定以使用其他语言构建 AI 应用程序，同时通过 Llama.cpp 运行推理。

Llama.cpp 缺点：

有限的模型支持
需要构建工具

4. Llamafile

Llamafile由 Mozilla 开发，为运行 LLM 提供了一种用户友好的替代方案。Llamafile 以其可移植性和创建单文件可执行文件的能力而闻名。

下载 llamafile 和任何 GGUF 格式的模型后，我们可以使用以下命令启动本地浏览器会话：

$ ./llamafile -m /path/to/model.gguf

Llamafile 优点：

与 Llama.cpp 相同的速度优势
您可以构建嵌入模型的单个可执行文件

Llamafile 缺点：

该项目仍处于早期阶段
并非所有模型都受支持，仅支持 Llama.cpp 的模型。

5.Ollama

Ollama是 Llama.cpp 和 Llamafile 的更用户友好的替代方案。您下载一个可执行文件，在您的计算机上安装服务。安装后，打开终端并运行：

$ ollama run llama2

Ollama 将下载模型并开始交互式会话。

Ollama 优点：

容易安装和使用。
可以运行美洲驼和骆驼毛模型。
真的很快。

Ollama 缺点：

提供有限的模型库。
自己管理模型，您不能重复使用自己的模型。
运行 LLM 的选项不可调整。
还没有 Windows 版本。

6.GPT4ALL

GPT4ALL 是一款易于使用的桌面应用程序，具有直观的 GUI。它支持本地模型运行，并通过 API 密钥提供与 OpenAI 的连接。它因其处理本地文档的上下文、确保隐私的能力而脱颖而出。

优点：

具有友好 UI 的精美替代方案
支持一系列精选模型

缺点：

有限的型号选择
部分型号有商业用途限制

结论

选择合适的工具在本地运行LLM取决于您的需求和专业知识。从 GPT4ALL 等用户友好的应用程序到 Llama.cpp 和基于 Python 的解决方案等更多技术选项，环境提供了多种选择。开源模型正在迎头赶上，提供对数据和隐私的更多控制。