ollama模型CPU轻量化部署

贾亚飞

已于 2025-03-14 09:30:15 修改

阅读量4.1k

点赞数 11

CC 4.0 BY-SA版权

分类专栏： AI deployed 文章标签：人工智能

于 2024-06-17 14:33:29 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_40777649/article/details/139743141

一、定义

ollama 定义
环境部署
demo
加载本地模型方法
基本指令
关闭开启ollama
ollama 如何同时运行多个模型, 多进程
ollama 如何分配gpu
修改模型的存储路径
后台运行

二、实现

ollama 定义
ollama 是llama-cpp 的进一步封装，更加简单易用，类似于docker.
模型网址：https://www.ollama.com/
部署网址：https://github.com/ollama/ollama
教程：https://github.com/ollama/ollama/releases
环境部署
1. 宿主机安装
curl -fsSL https://ollama.com/install.sh | sh

curl http://localhost:11434 已经启动。

远程访问配置：
>>sudo vi /etc/systemd/system/ollama.service
对于每个环境变量，在 [Service] 部分下添加一行 Environment：
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
保存并退出。
重新加载 systemd 并重新启动 Ollama：
>>systemctl daemon-reload
>>systemctl restart ollama

在这里插入图片描述
2. docker 模式安装
https://hub.docker.com/r/ollama/ollama

docker pull ollama/ollama
cpu:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
gpu:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama