Docker build ollama

  • OLLAMA_SCHED_SPREAD=1:强制模型推理任务在所有可用GPU之间均衡分配,实现真正的动态负载均衡,而不是一直只用一个GPU跑模型任务

network 必须为自命名的容器网络,不能使用默认网络bridge,原因:
 

Docker的NETWORK_NAME不要使用bridge默认网络,要使用自定义的网络如test

  • 默认 bridge 网络:容器间不能用名字互相访问,只能用 IP。
  • 自定义网络:容器间可以用名字互相访问,Docker 自动做了 DNS 解析。

GPU 资源管理

环境变量

功能说明

推荐值

OLLAMA_GPU_LAYER

强制使用CUDA分配GPU资源

cuda

OLLAMA_NUM_GPU

启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配)

根据实际GPU数量设置

OLLAMA_SCHED_SPREAD

GPU负载均衡策略(1=自动均衡)

1(多GPU时启用)

OLLAMA_MAX_LOADED_MODELS

单GPU最大加载模型数(防止显存溢出)

2-3(根据显存调整)

OLLAMA_NUM_PARALLEL

最大并发请求数(根据GPU算力调整)

4(高端GPU可增至6-8)

OLLAMA_KEEP_ALIVE

模型驻留时间(-1=永久驻留显存,避免重复加载)

-1(高性能场景推荐)

docker run -d --gpus=all -v ollama:/root/.ollama -e OLLAMA_SCHED_SPREAD=1 -e OLLAMA_KEEP_ALIVE=-1 -p 11434:11434 --network test --name ollama ollama/ollama:latest

进入ollama docker容器内的root用户根命令行 

sudo docker exec -it ollama /bin/bash

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值