【大模型系列】使用ollama本地运行千问2.5模型

接上一篇https://blog.youkuaiyun.com/Aqu415/article/details/145668678 介绍了win本地运行大模型的方式,这篇简单介绍ollama方式。

下载ollama

官网下载地址:https://ollama.com/download/windows
在这里插入图片描述
点击下载,后一路默认安装

校验安装结果

执行如下命令校验安装结果

ollama -v

在这里插入图片描述

更多命令参看: https://www.runoob.com/ollama/ollama-commands.html

运行模型

由于ollama类似docker模式,模型可以看作docker里的镜像;我们可以先可以把镜像先下载到本地,也可以让ollama帮我们下载;

如下我以 Qwen2.5-7B 为例子说明,

  • 第一步用魔塔sdk方式将模型下载到本地;
from modelscope import snapshot_download

if __name__ == '__main__':
    model_name = 'Qwen/Qwen2.5-7B-Instruct-GGUF'
    download_path = r'F:\model'

    snapshot_path = snapshot_download(model_name, cache_dir=download_path,allow_file_pattern="qwen2.5-7b-instruct-q5_0*.gguf")
    print(f'Model downloaded to: {snapshot_path}')

  • 制作Modelfile文件(该文件类型docker里的Dockerfile),内容如下:
FROM F:/model/Qwen/Qwen2___5-7B-Instruct-GGUF/qwen2.5-7b-instruct-q5_0.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
PARAMETER top_k 20

TEMPLATE """{{ if .Messages }}
{{- if or .System .Tools }}<|im_start|>system
{{ .System }}
{{- if .Tools }}

# Tools

You are provided with function signatures within <tools></tools> XML tags:
<tools>{{- range .Tools }}
{"type": "function", "function": {{ .Function }}}{{- end }}
</tools>

For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
<tool_call>
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call>
{{- end }}<|im_end|>
{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 -}}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ if .Content }}{{ .Content }}
{{- else if .ToolCalls }}<tool_call>
{{ range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
{{ end }}</tool_call>
{{- end }}{{ if not $last }}<|im_end|>
{{ end }}
{{- else if eq .Role "tool" }}<|im_start|>user
<tool_response>
{{ .Content }}
</tool_response><|im_end|>
{{ end }}
{{- if and (ne .Role "assistant") $last }}<|im_start|>assistant
{{ end }}
{{- end }}
{{- else }}
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ end }}{{ .Response }}{{ if .Response }}<|im_end|>{{ end }}"""

# set the system message
SYSTEM """你是阳仔,一个java程序员。"""

这个Modelfile文件是Qwen官网获取的ollama配置文件,链接:https://qwen.readthedocs.io/en/latest/run_locally/ollama.html

其中第一行的模型路径是刚下载的模型绝对路径,最后一行是角色指定;其他的设置参看ollama官网说明:https://www.llamafactory.cn/ollama-docs/modelfile.html

启动模型
  • 在Modelfile文件所在的目录执行如下命令,进行本地模型库加载
ollama create qwen2.5_7b -f Modelfile

在这里插入图片描述
succes表示成功

  • 查看模型库

查看本地模型列表命令

ollama list

在这里插入图片描述

  • 运行模型
    启动模型命令
ollama run qwen2.5_7b

在这里插入图片描述
启动成功,输入问题获得返回值

在这里插入图片描述

  • 停止模型
    执行命令如下
ollama stop qwen2.5_7b

到此使用ollama本地运行千问2.5 7b模型讲解完毕。

over~~

<think>嗯,用户想在本地部署Ollama2.5模型,需要一份指南。首先,我得回想一下Ollama的基本安装步骤,然后结合2.5的具体要求。Ollama通常是通过Docker或者直接安装的,但用户提到的是本地部署,可能需要考虑不同操作系统的差异,比如Windows、Linux或者macOS。不过用户之前的题中有提到Windows下的安装题,所以可能用户使用的是Windows系统,不过还是需要保持通用性。 接下来,我得考虑Ollama支持的模型格式,比如是否支持GGUF或者GGML格式。2.5可能需要特定的模型文件,用户需要从Hugging Face或者其他模型仓库下载。然后,安装Ollama的步骤可能包括下载安装包、配置环境变量,或者使用命令行工具。 另外,用户之前的题中提到了安装flash_attn时遇到的错误,可能需要特别注意依赖项的安装,比如CUDA版本、Python包等。在部署2.5时,可能需要安装一些特定的库,比如flash-attention,这时候可以参考用户提供的引用[1]中的解决方法,比如使用--no-build-isolation来加速安装,或者单独安装某些组件。 还有,用户之前遇到的题涉及到前端构建失败,引用[2]中提到npm版本过低的题,所以在部署Ollama的时候,如果涉及到前端部分,可能需要检查Node.js和npm的版本,确保它们符合要求。不过Ollama可能主要是后端服务,但如果有Web界面的话,这点也需要注意。 然后,部署步骤可能包括:1. 安装Ollama2. 下载2.5模型文件,3. 配置模型参数,4. 启动服务,5. 测试接口。需要详细说明每个步骤,比如如何通过Ollama的命令行拉取模型,或者如何手动放置模型文件到指定目录。 还要考虑可能出现的题,比如模型Ollama版本的兼容性,CUDA驱动是否安装正确,内存或显存是否足够,以及如何处理常见的错误,比如依赖缺失或者权限题。这时候可以引用之前的题中的解决方案,比如使用特定的pip安装选项,或者调整环境配置。 最后,生成的相关题需要考虑用户可能的后续疑,比如性能优化、模型微调、API集成、多模型管理等,这些都是部署后可能遇到的题,应该提前准备好这些题的引导,帮助用户进一步解决题。</think>### Ollama2.5本地部署指南 #### 一、环境准备 1. **硬件要求** - 建议显存$\geq$8GB(NVIDIA显卡需支持CUDA 11+) - 内存$\geq$16GB - 存储空间$\geq$20GB 2. **软件依赖** - 安装CUDA Toolkit 11.8+[^1] - Python 3.8+环境 - Docker(可选容器化部署) ```bash # 验证CUDA安装 nvidia-smi ``` #### 二、Ollama安装步骤 1. **基础安装** ```bash # Linux/macOS curl -fsSL https://ollama.ai/install.sh | sh # Windows winget install ollama ``` 2. **模型文件准备** 下载Qwen2.5模型文件(GGUF格式)至`~/.ollama/models/`目录 推荐官方镜像源: ```bash ollama pull qwen2:5b-gguf ``` #### 三、启动与验证 1. **运行服务** ```bash ollama serve ``` 2. **API测试** 使用Python接口验证: ```python from ollama import Client client = Client(host='http://localhost:11434') print(client.generate(model='qwen2:5b-gguf', prompt='你好')) ``` #### 四、常见题处理 1. **CUDA兼容题** 若出现`import flash_attn`报错,使用: ```bash pip install flash-attn --no-build-isolation ``` 2. **内存不足处理** 修改启动参数: ```bash OLLAMA_NUM_GPU=1 ollama serve ``` 3. **前端构建题** 确保npm版本$\geq$16.0(参考题15解决方案[^2])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值