大模型本地部署：LLM 利器 Ollama 架构和对话处理流程解析（附教程）

最新推荐文章于 2025-06-04 18:08:07 发布

LLM大模型

最新推荐文章于 2025-06-04 18:08:07 发布

阅读量914

点赞数 28

文章标签：架构知识库 langchain LLM RAG 本地化部署大模型

本文链接：https://blog.youkuaiyun.com/DEVELOPERAA/article/details/146535007

版权

Ollama 是一个快速运行 LLM（Large Language Models，大语言模型）的简便工具。通过 Ollama，用户无需复杂的环境配置，即可轻松与大语言模型对话互动。

本文将解析 Ollama 的整体架构，并详细讲解用户在与 Ollama 进行对话时的具体处理流程。

Ollama 整体架构

在这里插入图片描述

Ollama 使用了经典的 CS（Client-Server）架构，其中：

Client 通过命令行的方式与用户交互。
Server 可以通过命令行、桌面应用（基于 Electron 框架）、Docker 其中一种方式启动。无论启动方式如何，最终都调用同一个可执行文件。
Client 与 Server 之间使用 HTTP 进行通信。

Ollama Server 有两个核心部分：

ollama-http-server：负责与客户端进行交互。
llama.cpp：作为 LLM 推理引擎，负责加载并运行大语言模型，处理推理请求并返回结果。
ollama-http-server 与 llama.cpp 之间也是通过 HTTP 进行交互。

说明：llama.cpp 是一个独立的开源项目，具备跨平台和硬件友好性，可以在没有 GPU、甚至是树莓派等设备上运行。

Ollama 存储结构

Ollama 本地存储默认使用的文件夹路径为 $HOME/.ollama，文件结构如下图所示：

在这里插入图片描述

文件可分为三类：

日志文件：包括记录了用户对话输入的 history 文件，以及 logs/server.log 服务端日志文件。
密钥文件：id_ed25519 私钥和 id_ed25519.pub 公钥。
模型文件：包括 blobs 原始数据文件，以及 manifests 元数据文件。

元数据文件，例如图中的 models/manifests/registry.ollama.ai/library/llama3.2/latest 文件内容为：

在这里插入图片描述

如上图所示，manifests 文件是 JSON 格式，文件内容借鉴了云原生和容器领域中的 OCI spec 规范，manifests 中的 digest 字段与 blobs 相对应。

Ollama 对话处理流程

用户与 Ollama 进行对话的大致流程如下图所示：

在这里插入图片描述

用户通过 CLI 命令行执行 ollama run llama3.2 开启对话（llama3.2 是一种开源的大语言模型，你也可以使用其它 LLM）。
准备阶段：
- CLI 客户端向 ollama-http-server 发起 HTTP 请求，获取模型信息，后者会尝试读取本地的 manifests 元数据文件，如果不存在，则响应 404 not found。
- 当模型不存在时，CLI 客户端会向 ollama-http-server 发起拉取模型的请求，后者会去远程存储仓库下载模型到本地。
- CLI 再次请求获取模型信息。
交互式对话阶段：
- CLI 先向 ollama-http-server 发起一个空消息的 /api/generate 请求，server 会先在内部进行一些 channel（go 语言中的通道）处理。
- 如果模型信息中包含有 messages，则打印出来。用户可以基于当前使用的模型和 session 对话记录保存为一个新的模型，而对话记录就会被保存为 messages。
- 正式进入对话：CLI 调用 /api/chat 接口请求 ollama-http-server，而 ollama-http-server 需要依赖 llama.cpp 引擎加载模型并执行推理（llama.cpp 也是以 HTTP server 的方式提供服务）。此时，ollama-http-server 会先向 llama.cpp 发起 /health 请求，确认后者的健康状况，然后再发起 /completion 请求，得到对话响应，并最终返回给 CLI 显示出来。

通过上述步骤，Ollama 完成了用户与大语言模型的交互对话。

总结

Ollama 通过集成 llama.cpp 推理引擎，并进一步封装，将复杂的 LLM 技术变得触手可及，为开发者和技术人员提供了一个高效且灵活的工具，很好地助力了各种应用场景下的大语言模型推理与交互。

(关注我，无广告，专注技术，不煽动情绪，也欢迎与我交流)

参考资料：

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望