Llama 2 本地运行全攻略

本文介绍了在Mac、Windows、Linux和移动设备上本地运行Llama2大模型的三种开源工具:Llama.cpp(C/C++移植)、Ollama(Mac应用)和MLCLLM(iOS/Android)。无需互联网,即可体验模型的强大功能。

886ad8cc677ce2824968c6ef8a52b057.gif

【编者按】本文介绍了在本地运行 Llama 2 大模型的方法,包括使用 Llama.cpp 在 Mac/Windows/Linux 上运行,使用 Ollama 在 Mac 上运行,以及使用 MLC LLM 在手机上运行 Llama 2。其中,Llama.cpp 是 Llama 的 C/C++ 移植版本,Ollama 是 macOS 应用程序,而 MLC LLM 允许在 iOS 和 Android 手机上运行 Llama 2。

原文链接:https://replicate.com/blog/run-llama-locally

未经允许,禁止转载!

作者 | Zeke Sikelianos       译者 | 明明如月

责编 | 夏萌

出品 | 优快云(ID:优快云news)

很多人一直在讨论如何在 Replicate 平台上运行和微调 Llama 2 大模型。但你也可以在 M1/M2 Mac、Windows、Linux,甚至你的手机上本地运行 Llama 模型。本地运行 Llama 2 的酷炫之处在于,你甚至不需要互联网连接。

以下是一个使用本地运行的 Llama 2 来创建一个关于“为什么羊驼很酷”的网页的例子:

Llama 2 发布仅有几天,但已经有一些可以在本地运行它的技巧。在这篇博客文章中,我们将介绍三种可以在你自己的设备上运行 Llama 2 大语言模型的开源工具:

  • Llama.cpp(适用于 Mac/Windows/Linux)

  • Ollama(适用于 Mac)

  • MLC LLM(适用于 iOS/Android)

690e404e0271b3e3d3df200aee962b45.png

Llama.cpp(适用于 Mac/Windows/Linux)

Llama.cpp 是 Llama 的 C/C++ 移植版本,可以在 Mac 上使用 4-bit 整数量化(一种能够将原本较大的数据进行压缩,将其表示为更小的 4-bit 整数,从而减少了内存和计算资源的使用的技术)本地运行 Llama 2。Llama.cpp 也支持 Linux/Windows。

在 M1/M2 Mac 上仅需要一行命令即可安装:

curl -L "https://replicate.fyi/install-llama-cpp" | bash

以下是这行命令执行的内容:

#!/bin/bash


# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp


# 构建它。`LLAMA_METAL=1` 允许计算在 GPU 上执行
LLAMA_METAL=1 make


# 下载模型
export MODEL=llama-2-13b-chat.ggmlv3.q4_0.bin
if [ ! -f models/${MODEL} ]; then
    curl -L "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/resolve/main/${MODEL}" -o models/${MODEL}
fi


# 设置提示
PROMPT="Hello! How are you?"


# 在交互模式下运行
./main -m ./models/llama-2-13b-chat.ggmlv3.q4_0.bin \
  --color \
  --ctx_size 2048 \
  -n -1 \
  -ins -b 256 \
  --top_k 10000 \
  --temp 0.2 \
  --repeat_penalty 1.1 \
  -t 8

下面是适用于 Intel Mac 或 Linux 机器的安装命令。它与上面的命令相同,但没有包含 LLAMA_METAL=1 标志:

curl -L "https://replicate.fyi/install-llama-cpp-cpu" | bash

Windows 上可以通过  WSL  (WSL 允许用户在 Windows 系统上运行 Linux 环境和命令)运行下面命令进行安装。

curl -L "https://replicate.fyi/windows-install-llama-cpp" | bash

1b6246c3d57c5df33070b702d28f2557.png

Ollama(适用于 Mac)

Ollama 是一个开源的 macOS 应用程序(适用于 Apple Silicon),它允许你通过命令行界面运行、创建和分享大型语言模型。Ollama 已经支持 Llama 2。

要使用 Ollama CLI,需要在 ollama.ai/download 下载 macOS 应用程序。安装之后,不需要注册账户或加入任何等待列表,你可以下载 Lllama 2。

终端运行下面的指令:

# 下载 7B 模型(3.8 GB)
ollama pull llama2


# 或 13B 模型(7.3 GB)
ollama pull llama2:13b

就可以运行模型并与之聊天了:

ollama run llama2
>>> hi
Hello! How can I help you today?

注意:Ollama 建议你至少有 8 GB 的 RAM 来运行 3B 模型,16 GB 来运行 7B 模型,32 GB 来运行 13B 模型。

df557fe0eecf740ee23fe283c45a6b43.png

MLC LLM(在你的手机上运行 Llama)

MLC LLM 是一个开源项目,该项目支持在各种设备和平台上(包括 iOS 和 Android)本地运行语言模型。

对于 iPhone 用户,App Store 已经有了支持 Llama 2 (7B、13B 和 70B 版本)的 MLC 聊天应用,但它仍处于测试阶段(beta版本),并没有被发布正式到苹果应用商店上。因此,要尝试这个应用程序,用户需要安装 TestFlight 进行测试。如果想安装这个测试版本,可以查看相应的安装指南。

纸上得来终觉浅,绝知此事要躬行。如果你也想要本地运行  Llama2 模型, 参考本指南自己动手试试吧!

参考链接

  1. 运行:https://replicate.com/blog/llama-2-roundup

  2. 微调 Llama 2:https://replicate.com/blog/fine-tune-llama-2

  3. Llama.cpp:https://github.com/ggerganov/llama.cpp

  4. Ollama:https://ollama.ai/

  5. ollama.ai/download:https://ollama.ai/download

推荐阅读:

图灵奖得主Joseph Sifakis:机器“超智能”神话是假想,失业、安全防护才是真风险!

微软在 Edge 浏览器上用力过猛,网友担忧:千万别走 IE 的老路!

「AI 大神」回归学术界:“祝贺 MIT 拥有何恺明!”

粉丝福利:

5113917e85ed6027d4891d387d886f67.png

### 配置和启动本地运行Llama2 模型 要在本地环境中运行已下载的 Llama2 模型,可以借助 Ollama 工具来实现高效的管理和部署。以下是具体的配置与启动方式: #### 使用 Ollama 运行 Llama2 模型 Ollama 是一种轻量级工具,用于简化大型语言模型的本地化管理与运行过程[^2]。通过该工具,用户能够轻松加载并测试各种预训练模型。 1. **安装 Ollama** 安装 Ollama 的前提是确保系统已经具备 Docker 或其他支持环境。可以通过官方指南完成其初始化设置: ```bash curl https://get.ollama.ai/install.sh | sh ``` 2. **拉取 Llama2 模型** 利用 `ollama pull` 命令获取目标版本的 Llama2 模型文件。例如: ```bash ollama pull llama2 ``` 此操作会自动从远程仓库同步指定名称下的最新可用数据集到本地存储位置[^3]。 3. **验证模型状态** 执行以下指令确认所选框架已被正确导入至当前目录下: ```bash ollama list ``` 输出列表应展示包括但不限于 “llama2” 在内的多个条目信息。 4. **启动服务端口监听** 启动内置 HTTP API 接口以便后续交互请求处理功能正常运作: ```bash ollama serve & ``` 上述后台进程将绑定默认地址 (http://localhost:11434),允许外部程序访问调用接口。 5. **实际运行预测任务** 当一切准备就绪之后,即可尝试发送简单的自然语言查询给服务器端进行推理计算演示效果如下所示: ```python import requests url = 'http://localhost:11434/api/generate' payload = { "model": "llama2", "prompt": "Explain quantum computing." } response = requests.post(url, json=payload).json() print(response['response']) ``` 以上步骤涵盖了从基础环境搭建直至最终实践环节所需掌握的知识要点[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

优快云资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值