如何部署自己的本地大模型-优快云博客

本文链接：https://blog.youkuaiyun.com/a20040518/article/details/146520914

Step 1: 安装Ollama

Ollama是一个开源的大型语言模型服务工具，可以快速在本地安装和运行大模型。
通过一条命令就可以轻松启动和运行各种开源的大型语言模型。
提供了一个简洁易用的命令行界面，专为构建大型语言模型应用而设计。

Ollama支持MacOS 、Linux和Windows三大主流操作系统，MacOS和Windows从官网下载自己系统对应的版本安装即可。

Linux系统下可以直接复制以下命令到终端执行：

curl -fsSL https://ollama.com/install.sh | sh

但是一般会因为网络问题下载不了，可以直接下载一个离线的安装包，或者从我们提供的资源里面找到对应的安装包来直接解压安装：

# 下载安装包
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
# 解压安装
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

在本地浏览器上输入：

localhost:11434

出现“Ollama is running”的字样，证明Ollama安装完成。

以下演示是在windows环境下：

在本地打开命令行工具，输入“ollama”，就可以看到ollama命令的各种参数和用法：

由于我们没有安装本地大模型，所以输入“ollama list”显示为空，现在开始安装，以llama3为例来演示：（注意这里Ollama是用来部署大模型的工具，而llama是由Meta推出的一个大语言模型）

命令行输入“ollama run llama3.2”等待下载完成即可：

此时，我们就可以通过命令行进行对话了：

响应速度很快，这里响应速度是和显卡有关的，如果显卡性能不错，基本上可以做到秒回的。

再次输入“ollama list”，可以看到，我们下载的llama3.2已经显示在列表中了：

Step 2: 安装WebUI界面

接下来安装一个图形化的UI界面，这样就可以通过浏览器和本地模型进行交互了：

这里需要借助一个开源的工具MaxKB

MaxKB是基于大语言模型和RAG的知识库问答系统，RAG的全称是检索增强生成，是将检索与生成相结合的自然语言处理技术，R代表检索相关数据，A代表添加检索结果到提示词上下文，G代表输入大模型生成更准确的结果。

RAG 通过外部知识库检索与用户问题相关的信息，并将这些信息作为额外上下文插入到生成模型的输入提示中，从而帮助模型生成更准确、更相关的回答。这一过程的核心目的是弥补纯生成模型的知识局限性，使其能够基于实时、动态或特定领域的知识进行回答。

注意，官方文档上注明MaxKB仅支持Ubuntu和CentOS环境部署，但是对于Windows和MacOS也是可以的，使用Docker安装即可：

安装完Docker之后打开命令行终端，输入以下命令：

网络环境好的话可以直接拉取官方镜像来安装：