-
OLLAMA_SCHED_SPREAD=1:强制模型推理任务在所有可用GPU之间均衡分配,实现真正的动态负载均衡,而不是一直只用一个GPU跑模型任务
network 必须为自命名的容器网络,不能使用默认网络bridge,原因:
Docker的NETWORK_NAME不要使用bridge默认网络,要使用自定义的网络如test
- 默认 bridge 网络:容器间不能用名字互相访问,只能用 IP。
- 自定义网络:容器间可以用名字互相访问,Docker 自动做了 DNS 解析。
GPU 资源管理
|
环境变量 |
功能说明 |
推荐值 |
|---|---|---|
|
OLLAMA_GPU_LAYER |
强制使用CUDA分配GPU资源 |
cuda |
|
OLLAMA_NUM_GPU |
启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配) |
根据实际GPU数量设置 |
|
OLLAMA_SCHED_SPREAD |
GPU负载均衡策略(1=自动均衡) |
1(多GPU时启用) |
|
OLLAMA_MAX_LOADED_MODELS |
单GPU最大加载模型数(防止显存溢出) |
2-3(根据显存调整) |
|
OLLAMA_NUM_PARALLEL |
最大并发请求数(根据GPU算力调整) |
4(高端GPU可增至6-8) |
|
OLLAMA_KEEP_ALIVE |
模型驻留时间(-1=永久驻留显存,避免重复加载) |
-1(高性能场景推荐) |
docker run -d --gpus=all -v ollama:/root/.ollama -e OLLAMA_SCHED_SPREAD=1 -e OLLAMA_KEEP_ALIVE=-1 -p 11434:11434 --network test --name ollama ollama/ollama:latest
进入ollama docker容器内的root用户根命令行
sudo docker exec -it ollama /bin/bash
使用Docker构建Ollama
5344

被折叠的 条评论
为什么被折叠?



