Ollama 简介
Ollama 是一款开源的本地化大语言模型运行框架,专注于简化模型部署与管理流程,支持在个人设备上高效运行各类开源模型。
核心特点
- 本地化运行
所有模型推理均在本地完成,无需联网,保障数据隐私与安全性 - 跨平台支持
兼容 macOS/Linux/Windows 系统(Windows 需通过 WSL 实现) - 高效模型管理
提供模型下载、版本切换、缓存清理等一体化管理功能 - 量化压缩技术
支持 4-bit/8-bit 等量化方案,显著降低显存占用(如 7B 模型仅需 4GB 显存)
主流支持模型
模型系列 | 典型版本 |
---|---|
Llama 3 | 8B/70B 参数 |
Mistral | 7B/8x7B MoE |
Phi-3 | 3.8B 迷你模型 |
Gemma | 2B/7B 谷歌轻量级 |
LLaVA | 多模态视觉语言模型 |
CodeLlama | 代码专用模型 |
常用命令示例
# 运行默认模型
ollama run llama3
# 管理模型
ollama list # 查看已安装模型
ollama pull phi3 # 下载指定模型
ollama rm mistral # 删除模型
# 高级功能
ollama create -f Modelfile # 自定义模型
ollama serve # 启动API服务(默认端口11434)
应用场景
- 本地开发测试
- 私有化知识库构建
- 离线环境研究
- 模型微调实验