
【编者按】本文介绍了在本地运行 Llama 2 大模型的方法,包括使用 Llama.cpp 在 Mac/Windows/Linux 上运行,使用 Ollama 在 Mac 上运行,以及使用 MLC LLM 在手机上运行 Llama 2。其中,Llama.cpp 是 Llama 的 C/C++ 移植版本,Ollama 是 macOS 应用程序,而 MLC LLM 允许在 iOS 和 Android 手机上运行 Llama 2。
原文链接:https://replicate.com/blog/run-llama-locally
未经允许,禁止转载!
作者 | Zeke Sikelianos 译者 | 明明如月
责编 | 夏萌
出品 | 优快云(ID:优快云news)
很多人一直在讨论如何在 Replicate 平台上运行和微调 Llama 2 大模型。但你也可以在 M1/M2 Mac、Windows、Linux,甚至你的手机上本地运行 Llama 模型。本地运行 Llama 2 的酷炫之处在于,你甚至不需要互联网连接。
以下是一个使用本地运行的 Llama 2 来创建一个关于“为什么羊驼很酷”的网页的例子:
Llama 2 发布仅有几天,但已经有一些可以在本地运行它的技巧。在这篇博客文章中,我们将介绍三种可以在你自己的设备上运行 Llama 2 大语言模型的开源工具:
Llama.cpp(适用于 Mac/Windows/Linux)
Ollama(适用于 Mac)
MLC LLM(适用于 iOS/Android)

Llama.cpp(适用于 Mac/Windows/Linux)
Llama.cpp 是 Llama 的 C/C++ 移植版本,可以在 Mac 上使用 4-bit 整数量化(一种能够将原本较大的数据进行压缩,将其表示为更小的 4-bit 整数,从而减少了内存和计算资源的使用的技术)本地运行 Llama 2。Llama.cpp 也支持 Linux/Windows。
在 M1/M2 Mac 上仅需要一行命令即可安装:
curl -L "https://replicate.fyi/install-llama-cpp" | bash
以下是这行命令执行的内容:
#!/bin/bash
# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 构建它。`LLAMA_METAL=1` 允许计算在 GPU 上执行
LLAMA_METAL=1 make
# 下载模型
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi
# 设置提示
PROMPT="Hello! How are you?"
# 在交互模式下运行
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
--color \
--ctx_size 2048 \
-n -1 \
-ins -b 256 \
--top_k 10000 \
--temp 0.2 \
--repeat_penalty 1.1 \
-t 8
下面是适用于 Intel Mac 或 Linux 机器的安装命令。它与上面的命令相同,但没有包含 LLAMA_METAL=1 标志:
curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash
Windows 上可以通过 WSL (WSL 允许用户在 Windows 系统上运行 Linux 环境和命令)运行下面命令进行安装。
curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash

Ollama(适用于 Mac)
Ollama 是一个开源的 macOS 应用程序(适用于 Apple Silicon),它允许你通过命令行界面运行、创建和分享大型语言模型。Ollama 已经支持 Llama 2。
要使用 Ollama CLI,需要在 ollama.ai/download 下载 macOS 应用程序。安装之后,不需要注册账户或加入任何等待列表,你可以下载 Lllama 2。
终端运行下面的指令:
# 下载 7B 模型(3.8 GB)
ollama pull llama2
# 或 13B 模型(7.3 GB)
ollama pull llama2:13b
就可以运行模型并与之聊天了:
ollama run llama2
>>> hi
Hello! How can I help you today?
注意:Ollama 建议你至少有 8 GB 的 RAM 来运行 3B 模型,16 GB 来运行 7B 模型,32 GB 来运行 13B 模型。

MLC LLM(在你的手机上运行 Llama)
MLC LLM 是一个开源项目,该项目支持在各种设备和平台上(包括 iOS 和 Android)本地运行语言模型。
对于 iPhone 用户,App Store 已经有了支持 Llama 2 (7B、13B 和 70B 版本)的 MLC 聊天应用,但它仍处于测试阶段(beta版本),并没有被发布正式到苹果应用商店上。因此,要尝试这个应用程序,用户需要安装 TestFlight 进行测试。如果想安装这个测试版本,可以查看相应的安装指南。
纸上得来终觉浅,绝知此事要躬行。如果你也想要本地运行 Llama2 模型, 参考本指南自己动手试试吧!
参考链接
运行:https://replicate.com/blog/llama-2-roundup
微调 Llama 2:https://replicate.com/blog/fine-tune-llama-2
Llama.cpp:https://github.com/ggerganov/llama.cpp
Ollama:https://ollama.ai/
ollama.ai/download:https://ollama.ai/download
推荐阅读:
▶图灵奖得主Joseph Sifakis:机器“超智能”神话是假想,失业、安全防护才是真风险!
▶微软在 Edge 浏览器上用力过猛,网友担忧:千万别走 IE 的老路!
粉丝福利:

本文介绍了在Mac、Windows、Linux和移动设备上本地运行Llama2大模型的三种开源工具:Llama.cpp(C/C++移植)、Ollama(Mac应用)和MLCLLM(iOS/Android)。无需互联网,即可体验模型的强大功能。
1898

被折叠的 条评论
为什么被折叠?



