1 在搜索栏中搜索编辑系统环境变量
2 点击编辑系统环境变量,在弹出的对话框中点击右下角环境变量按钮
3 在弹出的对话框中点击新建
4 新建OLLAMA HOST变量
ollama默认监听127.0.0.1的IP,导致只能本机访问Ollama,局域网内其他节点无法访问ollama,按上图修改后局域网内其他机器也可以访问ollama。
OLLAMA_HOST
0.0.0.0:11434
5 新建OLLAMA_NUM_PARALLEL变量
ollama默认并行度只有1,可以通过设置OLLAMA_NUM_PARALLEL变量来更改ollama的并行度。
OLLAMA_NUM_PARALLEL
4
如果你是采用的主机应用 Ollama 而不是镜像,需要确保你的 Ollama 可以监听0.0.0.0。
1. Linxu 系统
如果 Ollama 作为 systemd 服务运行,打开终端,编辑 Ollama 的 systemd 服务文件,使用命令sudo systemctl edit ollama.service,在[Service]部分添加Environment=“OLLAMA_HOST=0.0.0.0”。保存并退出编辑器,然后执行sudo systemctl daemon - reload和sudo systemctl restart ollama使配置生效。
2. MacOS 系统
打开终端,使用launchctl setenv ollama_host “0.0.0.0"命令设置环境变量,然后重启 Ollama 应用程序以使更改生效。
3. Windows 系统
通过 “开始” 菜单或搜索栏打开 “编辑系统环境变量”,在 “系统属性” 窗口中点击 “环境变量”,在 “系统变量” 部分点击 “新建”,创建一个名为OLLAMA_HOST的变量,变量值设置为0.0.0.0,点击 “确定” 保存更改,最后从 “开始” 菜单重启 Ollama 应用程序。
附录:其他进阶环境变量配置
- OLLAMA_DEBUG: 显示额外的调试信息(例如:OLLAMA_DEBUG=1)。
- OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。
- OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:“5m”)。
- OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。
- OLLAMA_MAX_QUEUE: 请求队列的最大长度。
- OLLAMA_MODELS: 模型目录n
- OLLAMA_NUM_PARALLEL: 最大并行请求数。
- OLLAMA_NOPRUNE: 启动时不修剪模型 blob。
- OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔。
- OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。
- OLLAMA_TMPDIR: 临时文件的位置。
- OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。
- OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。