🌐 一、项目背景与定位
Ollama
开发团队:由 Ollama Inc. 开发,2023 年推出。
核心定位:为开发者和终端用户提供一个极简方式来本地运行大语言模型(LLM),强调“开箱即用”、“零配置”体验。
目标用户:个人开发者、研究人员、AI 爱好者、希望在本地运行私有模型的用户。
口号:“Run LLMs locally” —— 本地运行大模型。
vLLM
开发团队:由加州大学伯克利分校(UC Berkeley)主导开发,2023 年开源。
核心定位:打造一个高性能、高吞吐量的大语言模型推理引擎,专注于服务端推理优化。
目标用户:企业级应用、AI 服务平台、需要大规模并发处理的生产系统。
技术理念:“Fast LLM serving with high throughput” —— 高效服务大模型。
⚙️ 二、架构设计与核心技术
Ollama
1. 架构特点
基于 llama.cpp(C/C++ 实现)构建,底层使用 GGUF 量化格式。
采用轻量级服务架构,内置 HTTP API 服务器(/api/generate, /api/chat 等)。
支持多平台原生二进制分发(macOS、Linux、Windows)。
模型管理通过 Modelfile 定义(类似 Dockerfile),支持自定义模型微调、系统提示词注入等。
2. 核心技术
GGUF + llama.cpp:使用 CPU/GPU 混合推理,支持 Metal(Apple)、CUDA(NVIDIA)、Vulkan(跨平台 GPU)加速。
量化支持丰富:q4_0、q5_0、q6_K、q8_0 等多种精度级别,显著降低显存占用。
内存优化:模型加载后按需分页加载,空闲时释放显存,适合低资源设备。
自动模型下载:类似 docker pull,可通过 ollama pull llama3 自动获取预打包模型。
3. 推理机制
单请求处理为主,非批处理优先。
使用同步或简单异步模式处理请求,未实现复杂调度器。
vLLM
1. 架构特点
基于 Python 构建,深度集成 PyTorch 和 CUDA。
提供标准 RESTful API 接口(兼容 OpenAI 格式),易于集成到现有系统。
支持分布式部署,可横向扩展多个 vLLM 实例。
内置强大的调度器和批处理机制。
2. 核心技术
PagedAttention:vLLM 的核心创新,借鉴操作系统虚拟内存/分页思想,将注意力键值对(KV Cache)切分为“块”进行管理。
优势:极大提升显存利用率,减少碎片,支持动态序列长度。
效果:相比 Hugging Face Transformers,吞吐量提升 3–24 倍。
Continuous Batching(连续批处理):
不同长度的请求可以动态合并成 batch,持续处理,无需等待所有请求完成。
显著提升 GPU 利用率,尤其在长尾延迟场景下表现优异。
Prefix Caching:缓存共享前缀(如 system prompt),避免
一文告诉你大模型部署Ollama和vllm该怎么选
最新推荐文章于 2025-08-30 15:53:00 发布

最低0.47元/天 解锁文章
123

被折叠的 条评论
为什么被折叠?



