离线搭建属于自己的AI助手(ollama+qwen+docker+openwebui+bge-m3)

前言:

        在2025年的技术浪潮中,AI助手已从“工具”演变为“伙伴”,成为个人生产力与生活管理的核心枢纽。在日常生活中,每个人都有着自己记录的事情,如工作,生活等等,那么我们也可以搭建一个属于自己的AI,即可以保护自己的隐私,也可以方便我们记录未来及回顾过去......

如何搭建自己的AI助手:

        废话不多说,接下来就讲解安装过程,我这边主要用到了一下软件及模型:

ollama+qwen+docker+openwebui+bge-m3

ollama:本地大语言模型(LLM)运行框架,主要功能是简化大模型在个人设备上的部署和管理。简单理解就是为了安装及使用大语言模型。

qwen2.5-3b:阿里云 Qwen 团队推出的轻量级多模态语言模型。这个就相当于人的大脑,存储了大量知识及回答问题的逻辑。

docker:一个开源的‌容器化平台‌,用于快速构建、打包、部署和运行应用程序。这里主要作用就是安装open webui。

openwebui:一个开源、可扩展的‌ AI 交互平台。

bge-m3:通用语义向量模型。用于解析问题及解析知识库。也就是为大语言模型提供高质量外部知识检索‌,也就是常说的检索增强(RAG)‌。

安装环境:win10系统2022H2及以上内核版本。

第一步:安装ollama

1、双击运行“OllamaSetup.exe”安装文件,全程默认安装即可。

安装文件可在官网直接下载

2、配置ollama环境变量

OLLAMA_HOST

0.0.0.011434

OLLAMA_ORIGINS

*

OLLAMA_MODELS

D:\models

其他环境变量配置解释:

(1)OLLAMA_ MODELS :模型文件存放目录,如果是 Windows系统建议修改(如: D:\OllamaModels),避免 C盘空间吃紧

(2)OLLAMA_ HOST : Ollama服务监听的网络地址,默认为127.0.0.1 ,如果允许其他电脑访问Ollama (如:局域网中的其他电脑) , 建议设置成0.0.0.0,从而允许其他网络访问

(3)OLLAMA_ PORT : Ollama服务监听的默认端口, 默认为11434 ,如果端口有冲突,可以修改设置成其他端口(如: 8080等)

(4)OLLAMA_ ORIGINS : HTTP客户端请求来源半角逗号分隔列表 ,若本地使用无严格要求 可以设置成星号,代表不受限制

(5)OLLAMA_ KEEP_ ALIVE :大模型加载到内存中后的存活时间,默认为5m即5分钟(如:纯数字如300代表300秒, 0代表处理请求响应后立即卸载模型,任何负数则表示一直存活) ; 我们可设置成24h,即模型在内存中保持24小时,提高访问速度

(6)OLLAMA_ NUM_ PARALLEL :请求处理并发数量,默认为1,即单并发串行处理请求,可根据实际情况进行调整

(7)OLLAMA MAX_ QUEUE :请求队列长度,默认值为512,可以根据情况设置,超过队列长度请求被抛弃

(8)OLLAMA _DEBUG :输出Debug日志标识,应用研发阶段可以设置成1,即输出详细日志信息,便于排查问题

(9)OLLAMA. MAX_ LOADED_ MODELS :最多同时加载到内存中模型的数量,默认为1,即只能有1个模型在内存中

(10)OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。(显卡资源使用不均横:设置环境变量OLLAMA_SCHED_SPREAD为1即可。)

(11)加速计算:FlashAttention是一种优化的注意力机制,用于加速深度学习模型中常见的自注意力计算,尤其是在Transformer架构中。它通过改进内存访问模式和计算策略,显著提高了计算效率和内存使用率。

可以通过设置环境变量OLLAMA_FLASH_ATTENTION为1,开启该选项。

第二步:导入 GGUF 模型文件到本地磁盘(以qwen2.5-3b-instruct-q8_0.gguf为例,文件在官网下载)

1、新增NAME.Modelfile文本文件,加入以下配置

FROM C:\qwen2.5-3b-instruct-q8_0.gguf  #必填项目,说明使用模型来源

SYSTEM """你是谁谁谁,该做什么。"""  #给模型定义角色

TEMPLATE """{{- if .Messages }}
{{- if or .System .Tools }}<|im_start|>system
{{- if .System }}
{{ .System }}
{{- end }}"""    #对话模版,建议拷贝官网模版

PARAMETER temperature 0.7 (范围0-1,越大输出回答越随机)

2、在命令窗口执行创建模型命令

ollama create qwen2.5-3b -f D:\models\NAME.Modelfile

3、在cmd命令窗口中输入ollama run qwen2.5-3b 运行模型

第三步:安装Docker(具体过程就不写了)

1、安装适用于 Linux 的 Windows 子系统(WSL)

2、安装Docker Desktop

第四步:安装openwebui,导出及导入本地镜像

由于网上都是在线安装,离线安装的话需要在已安装好的容器中导出镜像,再离线导入。

导出本地镜像:“docker save ghcr.io/open-webui/open-webui:main > D:\open-webui.tar”其中“ghcr.io/open-webui/open-webui”为repository,“main”为tag。可通过“docker images”命令查看镜像repository和tag。

导入本地镜像:“docker load < D:\open-webui.tar”

第五步:安装bge-m3

第六步:浏览器进入open webui,注册用户

第七步:关闭openai api,配置ollama api连接,链接如下:

http://host.docker.internal:11434

第八步:设置文档配置

设置—管理员设置—文档—修改向量模型为bge-m3:latest

第九步:新增知识库

第十步:新建模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值