AIGC 实战：如何使用 Docker 在 Ollama 上离线运行大模型（LLM）

在这里插入图片描述

Ollama 是一个开源平台，用于管理和运行各种大型语言模型 (LLM)，例如 Llama 2、Mistral 和 Tinyllama。它提供命令行界面 (CLI) 用于安装、模型管理和交互。您可以使用 Ollama 根据您的需求下载、加载和运行不同的 LLM 模型。

Docker 是一个容器化平台，它将应用程序及其依赖项打包成一个可移植的单元，称为容器。容器与主机系统隔离，确保运行应用程序时环境一致且可预测。这使得 Docker 非常适合在不同环境中部署和运行软件。

有两种主要方法可以使用 Ollama 和 Docker 运行 LLM 模型：

1. 使用 Ollama Docker 镜像：

docker exec -it ollama ollama run llama2

在这里插入图片描述

2. 使用 Docker Compose 和 Ollama：

Docker Compose 允许您定义具有其依赖项的多容器应用程序。
您可以创建一个 docker-compose.yml 文件来指定 Ollama 容器和任何其他需要的服务（例如数据库）。
这种方法为运行您的 LLM 提供了更多的灵活性和对环境的控制。
可用的社区维护的 Docker Compose 设置包括：
- https://github.com/ollama/ollama/blob/main/Dockerfile
- https://github.com/ivanfioravanti/chatbot-ollama

其他注意事项：

运行 Ollama 和 LLM 模型所需的硬件取决于您选择的特定 LLM 模型及其大小（参数数量）。以下是详细说明：

最低要求：

GPU: 虽然不是强制要求，但 GPU 可以显着提升性能，尤其适用于大型模型。以下是细分：

未量化模型:
- VRAM 需求可能很高，通常会超出消费级 GPU。例如，一个 7B 模型在 FP16 下可能需要 26GB 的 VRAM。
量化模型:
- 更高效，需要的 VRAM 更少：
  - 7B 模型：~4GB
  - 13B 模型：~8GB
  - 30B 模型：~16GB
  - 65B 模型：~32GB

其他注意事项：