Llama 2 本地运行全攻略

最新推荐文章于 2024-11-26 14:49:02 发布

原创最新推荐文章于 2024-11-26 14:49:02 发布 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#llama

本文介绍了在Mac、Windows、Linux和移动设备上本地运行Llama2大模型的三种开源工具：Llama.cpp（C/C++移植）、Ollama（Mac应用）和MLCLLM（iOS/Android）。无需互联网，即可体验模型的强大功能。

【编者按】本文介绍了在本地运行 Llama 2 大模型的方法，包括使用 Llama.cpp 在 Mac/Windows/Linux 上运行，使用 Ollama 在 Mac 上运行，以及使用 MLC LLM 在手机上运行 Llama 2。其中，Llama.cpp 是 Llama 的 C/C++ 移植版本，Ollama 是 macOS 应用程序，而 MLC LLM 允许在 iOS 和 Android 手机上运行 Llama 2。

原文链接：https://replicate.com/blog/run-llama-locally

未经允许，禁止转载！

作者 | Zeke Sikelianos 译者 | 明明如月

责编 | 夏萌

出品 | 优快云（ID：优快云news）

很多人一直在讨论如何在 Replicate 平台上运行和微调 Llama 2 大模型。但你也可以在 M1/M2 Mac、Windows、Linux，甚至你的手机上本地运行 Llama 模型。本地运行 Llama 2 的酷炫之处在于，你甚至不需要互联网连接。

以下是一个使用本地运行的 Llama 2 来创建一个关于“为什么羊驼很酷”的网页的例子：

Llama 2 发布仅有几天，但已经有一些可以在本地运行它的技巧。在这篇博客文章中，我们将介绍三种可以在你自己的设备上运行 Llama 2 大语言模型的开源工具：

Llama.cpp（适用于 Mac/Windows/Linux）
Ollama（适用于 Mac）
MLC LLM（适用于 iOS/Android）

Llama.cpp（适用于 Mac/Windows/Linux）

Llama.cpp 是 Llama 的 C/C++ 移植版本，可以在 Mac 上使用 4-bit 整数量化（一种能够将原本较大的数据进行压缩，将其表示为更小的 4-bit 整数，从而减少了内存和计算资源的使用的技术）本地运行 Llama 2。Llama.cpp 也支持 Linux/Windows。

在 M1/M2 Mac 上仅需要一行命令即可安装：

curl -L "https://replicate.fyi/install-llama-cpp" | bash

以下是这行命令执行的内容：

#!/bin/bash


# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp


# 构建它。`LLAMA_METAL=1` 允许计算在 GPU 上执行
LLAMA_METAL=1 make


# 下载模型
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
    curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi


# 设置提示
PROMPT="Hello! How are you?"


# 在交互模式下运行
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
  --color \
  --ctx_size 2048 \
  -n -1 \
  -ins -b 256 \
  --top_k 10000 \
  --temp 0.2 \
  --repeat_penalty 1.1 \
  -t 8

下面是适用于 Intel Mac 或 Linux 机器的安装命令。它与上面的命令相同，但没有包含 LLAMA_METAL=1 标志：

curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash

Windows 上可以通过 WSL （WSL 允许用户在 Windows 系统上运行 Linux 环境和命令）运行下面命令进行安装。

curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash

Ollama（适用于 Mac）

Ollama 是一个开源的 macOS 应用程序（适用于 Apple Silicon），它允许你通过命令行界面运行、创建和分享大型语言模型。Ollama 已经支持 Llama 2。

要使用 Ollama CLI，需要在 ollama.ai/download 下载 macOS 应用程序。安装之后，不需要注册账户或加入任何等待列表，你可以下载 Lllama 2。

终端运行下面的指令：

# 下载 7B 模型（3.8 GB）
ollama pull llama2


# 或 13B 模型（7.3 GB）
ollama pull llama2:13b

就可以运行模型并与之聊天了：

ollama run llama2
>>> hi
Hello! How can I help you today?

注意：Ollama 建议你至少有 8 GB 的 RAM 来运行 3B 模型，16 GB 来运行 7B 模型，32 GB 来运行 13B 模型。

MLC LLM（在你的手机上运行 Llama）

MLC LLM 是一个开源项目，该项目支持在各种设备和平台上（包括 iOS 和 Android）本地运行语言模型。

对于 iPhone 用户，App Store 已经有了支持 Llama 2 （7B、13B 和 70B 版本）的 MLC 聊天应用，但它仍处于测试阶段（beta版本），并没有被发布正式到苹果应用商店上。因此，要尝试这个应用程序，用户需要安装 TestFlight 进行测试。如果想安装这个测试版本，可以查看相应的安装指南。

纸上得来终觉浅，绝知此事要躬行。如果你也想要本地运行 Llama2 模型，参考本指南自己动手试试吧！

参考链接