测试机为6133CPU(40Cores)+256G D4+4*4090D 24G
一种方法是部署蒸馏版Distill模型。一种是部署Huggingface上unsloth的量化版模型
Ollama及模型安装
1.下载并安装ollama
curl -fsSL https://ollama.com/install.sh | sh
如果下载不动可以试试挂梯子或者再试几次
挂代理代码:
export HTTP_PROXY="http://xxx:xxx"
export HTTPS_PROXY="http://xxx:xxx"
2. 安装Deepseek模型
这里根据自己的实际配置选择对应的模型
有多种可选择:https://ollama.com/library/deepseek-r1
我选择的是70B
ollama run deepseek-r1:70b
下载时间可能会较长
安装完成后可以使用同样的命令来启动本地对话
3.更改监听端口(如需外网访问)
vim /etc/systemd/system/ollama.service
改成这样:
即添加一个:Environment=“OLLAMA_HOST=0.0.0.0”
随后执行
sudo systemctl daemon-reload
sudo systemctl restart ollama
如需外网访问,还需要检查防火墙是否放开11434端口。
4.API测试
本地访问127.0.0.1:11434
curl http://127.0.0.1:11434
会出现 ollama is running的提示
外网可通过IP:11434访问
量化版部署
还有一种是在671B上面量化的版本,理论上比前面的蒸馏版要好一点,但是很麻烦