目录
一、官网
二、安装方式一:window10版本下载
三、安装方式二:linux版本docker
四、 模型库
五、运行模型
六、API服务
七、python调用
ollama库调用
langchain调用
requests调用
aiohttp调用
八、模型添加方式
1.线上pull
2.导入 GGUF 模型文件
3.导入 safetensors 模型文件
九、部署Open WebUI
一、官网
在 macOS 上下载 Ollama - Ollama 中文
二、安装方式一:window10版本下载
安装完成没有提示。 接下来配置环境变量!
Ollama的安装过程,与安装其他普通软件并没有什么两样,安装完成之后,有几个常用的系统环境变量参数建议进行设置:
- OLLAMA_MODELS:模型文件存放目录,默认目录为当前用户目录(Windows 目录:
C:\Users%username%.ollama\models
,MacOS 目录:~/.ollama/models
,Linux 目录:/usr/share/ollama/.ollama/models
),如果是 Windows 系统建议修改(如:D:\OllamaModels),避免 C 盘空间吃紧- OLLAMA_HOST:Ollama 服务监听的网络地址,默认为127.0.0.1,如果允许其他电脑访问 Ollama(如:局域网中的其他电脑),建议设置成0.0.0.0,从而允许其他网络访问
- OLLAMA_PORT:Ollama 服务监听的默认端口,默认为11434,如果端口有冲突,可以修改设置成其他端口(如:8080等)
- OLLAMA_ORIGINS:HTTP 客户端请求来源,半角逗号分隔列表,若本地使用无严格要求,可以设置成星号,代表不受限制
- OLLAMA_KEEP_ALIVE:大模型加载到内存中后的存活时间,默认为5m即 5 分钟(如:纯数字如 300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活);我们可设置成24h,即模型在内存中保持 24 小时,提高访问速度
- OLLAMA_NUM_PARALLEL:请求处理并发数量,默认为1,即单并发串行处理请求,可根据实际情况进行调整
- OLLAMA_MAX_QUEUE:请求队列长度,默认值为512,可以根据情况设置,超过队列长度请求被抛弃
- OLLAMA_DEBUG:输出 Debug 日志标识,应用研发阶段可以设置成1,即输出详细日志信息,便于排查问题
- OLLAMA_MAX_LOADED_MODELS:最多同时加载到内存中模型的数量,默认为1,即只能有 1 个模型在内存中
看看是不是已经启动了ollama。右下角图标如下
如果没有,则去打开一下
黑窗口查看一下 版本
浏览器查看一下API服务: 127.0.0.1:11434
如果出现连接不上,则检查一下环境变量是不是配错了,是不是没有E盘(如果你照抄)。
运行一个0.5b的qwen模型
看看API访问情况:
提问:
对话:
① system 代表系统设定(也就是告诉chatGPT他的角色)
② user 表示用户
③ assistant 表示GPT的回复
三、安装方式二:linux版本docker
Olama现已作为官方Docker镜像提供 · Olama博客 - Ollama 中文
主机的/home/ollama文件夹映射到容器的/root/.ollama文件夹
主机的11435端口映射到容器的11434端口
进入容器内部:
查看ollama执行
ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型,会先自动下载模型
ollama pull # 从注册仓库中拉取模型
ollama push # 将模型推送到注册仓库
ollama list # 列出已下载模型
ollama ps # 列出正