如何部署自己的本地大模型

Step 1: 安装Ollama

Ollama是一个开源的大型语言模型服务工具, 可以快速在本地安装和运行大模型。
通过一条命令就可以轻松启动和运行各种开源的大型语言模型。
提供了一个简洁易用的命令行界面,专为构建大型语言模型应用而设计。

Ollama支持MacOS 、Linux和Windows三大主流操作系统,MacOS和Windows从官网下载自己系统对应的版本安装即可。

Linux系统下可以直接复制以下命令到终端执行:

​curl -fsSL https://ollama.com/install.sh | sh

但是一般会因为网络问题下载不了,可以直接下载一个离线的安装包, 或者从我们提供的资源里面找到对应的安装包来直接解压安装:

​# 下载安装包
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
# 解压安装
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

在本地浏览器上输入:

localhost:11434

出现“Ollama is running”的字样,证明Ollama安装完成。


以下演示是在windows环境下: 

在本地打开命令行工具,输入“ollama”,就可以看到ollama命令的各种参数和用法: 

由于我们没有安装本地大模型,所以输入“ollama list”显示为空,现在开始安装,以llama3为例来演示:(注意这里Ollama是用来部署大模型的工具,而llama是由Meta推出的一个大语言模型)

命令行输入“ollama run llama3.2”等待下载完成即可:

此时,我们就可以通过命令行进行对话了:

响应速度很快,这里响应速度是和显卡有关的,如果显卡性能不错,基本上可以做到秒回的。

再次输入“ollama list”,可以看到,我们下载的llama3.2已经显示在列表中了:

Step 2: 安装WebUI界面

接下来安装一个图形化的UI界面,这样就可以通过浏览器和本地模型进行交互了:

这里需要借助一个开源的工具MaxKB

MaxKB是基于大语言模型RAG的知识库问答系统,RAG的全称是检索增强生成,是将检索与生成相结合的自然语言处理技术,R代表检索相关数据,A代表添加检索结果到提示词上下文,G代表输入大模型生成更准确的结果。

RAG 通过外部知识库检索与用户问题相关的信息,并将这些信息作为额外上下文插入到生成模型的输入提示中,从而帮助模型生成更准确、更相关的回答。这一过程的核心目的是弥补纯生成模型的知识局限性,使其能够基于实时、动态或特定领域的知识进行回答。

注意,官方文档上注明MaxKB仅支持Ubuntu和CentOS环境部署,但是对于Windows和MacOS也是可以的,使用Docker安装即可:

安装完Docker之后打开命令行终端,输入以下命令:

网络环境好的话可以直接拉取官方镜像来安装:

docker run -d --name=maxkb -p 8080:8080 -v ~/.maxkb:/var/lib/postgresql/data 1panel/maxkb

网络环境不好的话可以试试这个:

# 导入镜像
docker load < maxkb.tar
# 启动容器
docker run -d --name=maxkb -p 8080:8080 -v ~/.maxkb:/var/lib/postgresql/data 1panel/maxkb

这个命令会从DockerHub上下载MaxKB的镜像文件,等到所有的下载都完成后,会在本地启动一个MaxKB的容器。执行完成后,就可以通过浏览器来访问MaxKB的web界面了:

在浏览器输入“localhost:8080”,进入MaxKB界面:

进入之后需要重新设置密码,设置完成之后,就可以添加我们想要的大模型了:

设置模型信息: 

此时llama3模型已经添加好了: (添加其他的也是类似,比如想添加kimi,就可以到它的官网上申请API Key,添加即可)

添加完模型之后,需要添加一个应用来使用这个模型,

 

可以看到,没有问题,响应速度也是很快的,设置好之后,点击右上角“保存并发布”按钮即可。

除了MaxKB,OpenWebUI也是不错的选择,也可以实现我们的大模型界面。 

Step 3: 配置ngrok支持公网访问

目前,我们的大模型只支持我们自己电脑上进行访问,如何把我们的大模型发布到公网,让其他人也可以使用呢?

需要使用一个内网穿透的工具Ngrok,Ngrok可以将本地应用映射到公网上,这样就能通过公网地址来访问到我们的这个应用了。

进入ngrok之后,找到“Your Authtoken”,复制该内容,同时打开命令行工具,输入“ngrok config add authtoken + 刚才复制的内容”,回车之后安装和配置就完成了。

在命令行输入以下命令,回车执行:

ngrok http 8080

 

将ngrok映射的公网地址与我们本地地址后半部分结合,就是我们应用的地址,即

https://366a-182-200-127-47.ngrok-free.app/ui/chat/a9cbcaec7583d660

此时就可以和我们的大模型进行对话了: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值