Ollama入门指南：轻松部署本地大语言模型

最新推荐文章于 2025-12-13 23:02:18 发布

转载最新推荐文章于 2025-12-13 23:02:18 发布 · 18 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://ai225.com/article/ollama-introduction

文章标签：

#人工智能 #Ollama #大语言模型

AI项目专栏收录该内容

17 篇文章

订阅专栏

随着人工智能技术的快速发展，大型语言模型(LLM)已成为开发者和研究人员的必备工具。然而，这些模型通常需要强大的硬件支持和复杂的配置。Ollama的出现正是为了解决这一问题，它是一个开源框架，让用户能够轻松在本地设备上运行和管理各种大型语言模型。

本文为简化版介绍，更详细的内容请参考原文：Ollama：本地大模型部署的瑞士军刀

什么是Ollama？

Ollama是一个开源的大型语言模型服务工具，旨在简化在本地环境中部署和运行这些模型的过程。它支持多种操作系统(Windows、macOS、Linux)，可以通过Docker容器进行管理，并提供与OpenAI兼容的API。

项目地址：https://github.com/ollama/ollama
官方网址：https://ollama.com

核心特性

本地推理能力：有无GPU均可运行，自动检测并充分利用GPU+CPU资源
轻量易用：支持多平台一键安装，只需简单命令行操作
量化优化：支持4-bit或8-bit量化，降低硬件资源占用
模型管理：内置模型库，通过简单命令管理模型
API兼容性：提供与OpenAI兼容的API，便于代码迁移

安装与使用

1. 安装Ollama

Windows安装：
下载并运行Windows安装包：https://ollama.com/download/OllamaSetup.exe

macOS安装：
下载并运行Ollama.dmg安装包：https://ollama.com/download/Ollama.dmg

Linux安装：

curl -fsSL https://ollama.com/install.sh | sh

2. 下载并运行模型

安装完成后，可以通过简单命令下载并运行模型：

# 下载Llama 3.2模型
ollama pull llama3.2

# 运行模型并开始对话
ollama run llama3.2

3. 常用管理命令

# 查看已安装的模型
ollama list

# 查看正在运行的模型
ollama ps

# 删除模型
ollama rm llama3.2

# 停止正在运行的模型
ollama stop llama3.2

支持的模型

Ollama支持多种流行模型，以下是一些示例：

模型	参数量	大小	下载命令
Llama 3.2	3B	2.0GB	`ollama run llama3.2`
Llama 3.2	1B	1.3GB	`ollama run llama3.2:1b`
Gemma 3	4B	3.3GB	`ollama run gemma3`
DeepSeek-R1	7B	4.7GB	`ollama run deepseek-r1`
Phi 4	14B	9.1GB	`ollama run phi4`
Mistral	7B	4.1GB	`ollama run mistral`

注意：运行7B参数模型至少需要8GB RAM，13B参数模型需要16GB RAM。

API使用

Ollama提供REST API接口，支持generate和chat两种交互方式：

# 生成接口
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"为什么天空是蓝色的？"
}'

# 聊天接口
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "为什么天空是蓝色的？" }
  ]
}'

编程集成

使用Python连接Ollama的示例：

import json
import requests

# 发送请求到Ollama
response = requests.post('http://localhost:11434/api/generate',
                        json={
                            'model': 'llama3.2',
                            'prompt': '你好，请介绍一下你自己。',
                            'stream': False
                        })

# 打印响应
print(json.loads(response.text)['response'])