要想发挥OLLAMA的真正实力🎯, 还是要与JBoltAI搭配食用才能发挥其最大价值🤑😂, JBoltAI欢迎亲的随时关注哟🤩😚~
OLLAMA_DEBUG
-
作用:显示额外的调试信息,用于排查问题和了解系统运行的详细情况。
-
使用示例:
export OLLAMA_DEBUG=1
ollama serve
OLLAMA_HOST
-
作用:指定 Ollama 服务器的 IP 地址和端口,默认值为
127.0.0.1:11434。如果需要在局域网内访问,可以将其设置为0.0.0.0。 -
使用示例:
export OLLAMA_HOST=0.0.0.0:11434
ollama serve
OLLAMA_KEEP_ALIVE
-
作用:设置模型在内存中保持加载的时长,默认值为
5m(5分钟)。如果希望模型长时间保持在内存中,可以将其设置为更长的时间,例如24h。 -
使用示例:
export OLLAMA_KEEP_ALIVE="24h"
ollama serve
OLLAMA_MAX_LOADED_MODELS
-
作用:指定每个 GPU 上最大加载模型数量,用于控制 GPU 内存的使用。
-
使用示例:
export OLLAMA_MAX_LOADED_MODELS=2
ollama serve
OLLAMA_MAX_QUEUE
-
作用:设置请求队列的最大长度,用于控制系统的并发处理能力。
-
使用示例:
export OLLAMA_MAX_QUEUE=10
ollama serve
OLLAMA_MODELS
-
作用:指定模型目录的路径,如果系统盘空间不足,可以将模型存储在其他位置。
-
使用示例:
export OLLAMA_MODELS=/path/to/your/models
ollama serve
OLLAMA_NUM_PARALLEL
-
作用:设置最大并行请求数,用于提高系统的吞吐量。
-
使用示例:
export OLLAMA_NUM_PARALLEL=4
ollama serve
OLLAMA_NOPRUNE
-
作用:启动时不修剪模型 blob,用于保留模型的完整数据。
-
使用示例:
export OLLAMA_NOPRUNE=1
ollama serve
OLLAMA_ORIGINS
-
作用:指定允许的源列表,使用逗号分隔,用于控制跨域访问。
-
使用示例:
export OLLAMA_ORIGINS="http://example.com,http://another-example.com"
ollama serve
OLLAMA_SCHED_SPREAD
-
作用:始终跨所有 GPU 调度模型,用于优化多 GPU 的资源分配。
-
使用示例:
export OLLAMA_SCHED_SPREAD=1
ollama serve
OLLAMA_TMPDIR
-
作用:指定临时文件的位置。
-
使用示例:
export OLLAMA_TMPDIR=/path/to/temp
ollama serve
OLLAMA_FLASH_ATTENTION
-
作用:启用 Flash Attention,加速模型的计算。
-
使用示例:
export OLLAMA_FLASH_ATTENTION=1
ollama serve
OLLAMA_LLM_LIBRARY
-
作用:设置 LLM 库以绕过自动检测。
-
使用示例:
export OLLAMA_LLM_LIBRARY=custom_library
ollama serve
OLLAMA_GPU_OVERHEAD
-
作用:为每个 GPU 预留一部分显存(以字节为单位),避免显存不足。
-
使用示例:
export OLLAMA_GPU_OVERHEAD=1073741824 # 预留 1GB 显存
ollama serve
OLLAMA_LOAD_TIMEOUT
-
作用:设置模型加载的超时时间,默认为
5m。 -
使用示例:
export OLLAMA_LOAD_TIMEOUT="10m"
ollama serve
Ollama参数详解及与JBoltAI搭配

被折叠的 条评论
为什么被折叠?



