【笔记】动手学Ollma 第三章 自定义使用 Ollama

部署运行你感兴趣的模型镜像

正文详见:3.1 自定义导入模型https://datawhalechina.github.io/handy-ollama/#/C3/1.%20%E8%87%AA%E5%AE%9A%E4%B9%89%E5%AF%BC%E5%85%A5%E6%A8%A1%E5%9E%8B

一、Ollama自定义导入模型

1、从GGUF导入

GGUF是一种用于保存经过微调的语言模型的文件格式,方便用户在不同平台和环境之间共享和导入模型。

示例:

1、下载模型GGUF文件

Qwen-20.5b模型下载链接:https://huggingface.co/RichardErkhov/Qwen_-_Qwen2-0.5B-gguf/resolve/main/Qwen2-0.5B.Q3_K_M.gguf?download=truehttps://huggingface.co/RichardErkhov/Qwen_-_Qwen2-0.5B-gguf/resolve/main/Qwen2-0.5B.Q3_K_M.gguf?download=true

2、新建一个Modelfile文件,内容为:

Modefile是模型配置文件。

FROM ./Qwen2-0.5B.Q3_K_M.gguf

3、在Ollama中创建模型(在Modefile文件所在的目录下运行以下终端指令)

ollama create mymodel -f Modelfile

4、终端内运行模型

ollama run mymodel

2、从Pytorch或Safetensors导入

Safetensors 是一种用于存储深度学习模型权重的文件格式,同时它也可以转换为gguf文件。

(6) Safetensors vs GGUF | LinkedInhttps://www.linkedin.com/pulse/llama-3-safetensors-vs-gguf-talles-carvalho-jjcqf/示例:

1、下载llama-3模型

# 下载模型
from huggingface_hub import snapshot_download

model_id = "unsloth/llama-3-8b-bnb-4bit"
snapshot_download(
  repo_id=model_id, 
  local_dir="llama-3-8b-bnb-4bit",
  local_dir_use_symlinks=False,
  revision="main",
  # 怎么获取<YOUR_ACCESS_TOKEN>,请参照部分3
  use_auth_token="<YOUR_ACCESS_TOKEN>")

2、创建Modelfile文件

FROM ./llama-3-8b-bnb-4bit

3、创建模型

ollama create mymodel2 -f Modelfile

4、运行模型

ollama run mymodel2

3、由模型直接导入

llama.cpp 是 GGUF 的开源项目,提供 CLI 和 Server 功能。

示例:

1、从HuggingFace下载Model

首先前往huggingface个人设置界面拿到用户个人的ACCESS_TOKEN.

Hugging Face – The AI community building the future.https://huggingface.co/settings/tokens点击个人头像,在左侧找到 Access Token,点击右上侧Creat new token。

在Token type选择Read,填写Token name,最后点击Create token。

这样,我们就拿到了我们的第一个ACCESS_TOKEN,现在,你可以先返回第二小节,完成Safetensors的导入(我失败了)。

创建main.ipynb,输入代码,下载模型Qwen-0.5b。

from huggingface_hub import snapshot_download

model_id = "Qwen/Qwen1.5-0.5B" # hugginFace's model name
snapshot_download(
    repo_id=model_id, 
    local_dir="Qwen-0.5b",
    local_dir_use_symlinks=False,
    revision="main",
    token="YOUR_ACCESS_TOKEN")

2、

4、自定义Prompt

Ollama 支持自定 义Prompt,可以让模型生成更符合用户需求的文本。

示例:

1、创建Modefile文件,内容:

FROM llama3.1
# sets the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1
# sets the context window size to 4096, this controls how many tokens the LLM can use as context to generate the next token
PARAMETER num_ctx 4096

# sets a custom system message to specify the behavior of the chat assistant
SYSTEM You are Mario from super mario bros, acting as an assistant.

2、创建模型

ollama create mymodel -f ./Modelfile

下载完成后运行 ollama list 查看。

3、运行模型

ollama run mymodel

5、Ollama界面安装

打开Ollama后,在右下侧选择模型,如果该模型没有被安装,则会自动安装该模型。

二、Ollama自定义在GPU中运行

1、设置环境变量

Windows搜索栏搜索“环境变量”,选择“编辑系统环境变量”

点击“环境变量”,点击“系统变量(s)”右下方的“新建”。

变量名:OLLAMA_GPU_LAYER

变量值:cuda

使用 ollama ps 验证GPU是否生效:

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值