大模型笔记7：ollama的常用命令

最新推荐文章于 2025-10-17 15:20:39 发布

原创最新推荐文章于 2025-10-17 15:20:39 发布 · 388 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

ollama list 查看本地的大模型列表

ollama run [model] 运行对应的大模型

/bye 退出当前大模型

/clear 清除大模型理解的上下文

ollama pull [model] 下载模型

ollama show [model] 显示模型的信息

""" [分行内容] """ 实现多行数据的使用

ollama run [model] “提示词” 不进入交互命令行，直接让模型根据prompt输出结果

ollama run [model] “提示词” --verbose 可以打印模型的一些运行耗时参数

ollama rm [model] 删除模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

errorwarn

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ollama系列---【Ollama常用命令】

-少年-的博客

01-08

2898

ollama常用命令 1.启动ollama服务 ollama serve 2.创建模型 (create) 使用 Modelfile 来创建一个新模型。你需要提供一个包含模型信息的 Modelfile。 ollama create /path/to/Modelfile 3.显示模型信息 (show) 查看特定模型的详细信息，例如模型名称、版本等。 ollama show model_name 4....

『大模型笔记』Ollama环境变量大全！

AI新视界

02-14

1655

Ollama环境变量大全！

参与评论您还未登录，请先登录后发表或查看评论

ollma常用命令

java程序员的蜕变之路

02-14

2130

使用 Modelfile 来创建一个新模型。你需要提供一个包含模型信息的 Modelfile。将本地模型推送到模型注册表中，以便他人或其他系统使用。列出本地所有可用的模型,可以在这里查找模型名称。查看特定模型的详细信息，例如模型名称、版本等。复制一个模型到另一个位置或给定名称的地方。显示当前 ollama 工具的版本信息。从模型注册表中拉取一个模型，供本地使用。运行一个已安装的模型，执行某些任务。显示当前正在运行的模型列表。删除一个已安装的模型。

Ollama 常用命令

最新发布

weixin_64443786的博客

10-17

108

ollama pull 模型名称。ollama run 模型名称。

ollama常用指令

qq_15821487的博客

08-15

3298

启动Ollama服务 ollama serve 2. 从模型文件创建模型 ollama create 3. 显示模型信息 ollama show 4. 运行模型 ollama run 模型名称 5. 从注册表中拉去模型 ollama pull 模型名称 6. 将模型推送到注册表 ollama push 7. 列出模型 ollama list 8. 复制模型 ollama cp 9. 删除模型 ollama rm 模型名称 10

ollama 常用命令

feng65536的博客

07-13

1493

Ollama常用命令指南：基础操作包括下载模型（pull）、运行模型（run）并支持参数调整（如温度、最大token数）、查看本地模型（list）和删除模型（rm）。高级功能涵盖硬件加速选择（GPU/CPU）、后台运行（detach）、批量推理（generate）和日志查看（logs）。参数调优支持随机性控制（temp）、内容过滤（moderate）等。典型场景如快速测试模型、代码生成和磁盘清理。帮助命令（help）可随时查阅详细说明。

ollama常用命令

weixin_40303516的博客

07-16

2324

此命令用于停止正在运行的 Ollama 服务器。启动 Ollama 服务。停止 Ollama 服务。查看已下载的模型列表。

【AI基础】使用Ollama部署本地LLM大模型（DeepSeek-R1:7B）

qq_42567701的博客

06-06

563

Ollama 是一个开源的本地大语言模型运行框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。Ollama 提供对模型量化的支持，可降低模型的显存要求，使得在PC或笔记本上运行大型模型成为可能，是开发者尝试本地LLM大模型服务的推荐方式之一。

大模型实战—Ollama 本地部署大模型

2401_84052244的博客

04-25

6027

根据 ChatGPT 的使用经验，多数人都已知晓系统提示词的重要性。好的系统提示词能有效地将大模型定制成自己需要的状态。在 Ollama 中，有多种方法可以自定义系统提示词。首先，不少 Ollama 前端已提供系统提示词的配置入口，推荐直接利用其功能。此外，这些前端在底层往往是通过APIcurl -d '{"content": "以海盗的口吻简单作答。},"content": "天空为什么是蓝色的？],}'其中role为system的消息即为系统提示词。

Ollama 深度使用指南：在本地玩转大型语言模型

superfreeman的专栏

06-30

1311

摘要：Ollama是一款简化本地运行开源大型语言模型(LLM)的工具。本文详细介绍：1)安装及基础模型运行；2)模型存储位置管理，包括环境变量设置和跨平台配置；3)模型选择策略，考虑参数量和量化级别；4)通过Modelfile自定义模型角色和参数；5)多种交互方式，包括终端和图形界面；6)搭建局域网AI服务器的方法；7)实用终端命令和高级配置技巧。Ollama让用户无需依赖云服务即可充分利用LLM的强大功能，适合不同硬件配置和个性化需求。

8. ollama 常用的Python使用命令

weixin_71719718的博客

06-19

443

上一节写了ollama本地部署大模型，这里主要写ollama用python调用大模型。这里主要看了博客，这里作为笔记用，以下代码都能在python环境下跑通。

Ollama命令

2301_78554215的博客

11-05

3307

LobeChat可以让企业快速搭建私有对话模型解决数据泄密等安全问题，MaxKB可以把企业内部信息融入到大模型中，解决私有域数据不能被访问的问题。而Continue，则是面向企业内部程序员的，用于帮助程序员开始生成代码、代码排错的，与通义灵码类似，但相比通义灵码，企业结合Continue+Ollama可以更好的避免内部价值代码的安全，不被传输到外网。较高的值（例如100）将给出更多样化的答案，而较低的值（例如10）将更加保守。/save存储模型(可以把当前对话模型存储成一个新的模型)/bye退出对话模型。

Ollama常用命令

2401_85375151的博客

05-30

2万+

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费。

Ollama常用指令

qq_24800489的博客

03-20

1629

创建。

大模型 ollama命令详解大全

热门推荐

王小工小工历程

01-16

3万+

请注意，随着Ollama的更新和发展，可能会有新的命令和功能被添加或修改。因此，建议定期查看Ollama的官方文档或GitHub仓库以获取最新的命令和功能信息。该命令会向Ollama服务发送一个包含用户消息的请求，并等待模型返回回答。如果模型正常工作，应该能够看到模型返回的“你好”对应的回答。该命令会启动Ollama服务，并加载qwen2.5-coder:7b模型。如果想下载其他版本的qwen2.5模型，请将7b替换为相应的版本号。该命令会从Ollama的官方网站下载并安装Ollama。

大模型学习-ollama常见命令

m0_74462339的博客

12-18

6970

serve。

在电脑上使用ollama部署大模型时，需要调整哪些参数

08-05

<think>我们正在讨论的是使用Ollama部署大模型时需要调整的参数。根据用户提供的引用内容，Ollama是一个用于部署和管理大语言模型的工具，它支持多种开源模型（如Llama3、Mistral、Gemma等）。用户的问题集中在部署阶段需要调整的参数，这些参数主要属于运行时参数和生成控制参数。参考之前的回答，参数分为四大类：结构参数、运行时参数、生成控制参数和任务适配参数。在Ollama部署场景中，结构参数通常由所选模型决定（如选择7B还是70B的模型），而用户可调整的主要是运行时参数和生成控制参数。从引用中可以看出，Ollama提供了一些命令行参数和环境变量来调整模型运行。例如： - `--num_gpu_layers`：指定使用GPU计算的层数（影响GPU/CPU负载分配） - `--num_threads`：设置CPU线程数 - 其他如批处理大小（batch_size）、上下文长度（num_ctx）等另外，在模型生成文本时，还可以调整温度（temperature）、top_p等生成控制参数。因此，我们可以将Ollama部署大模型时需要调整的参数分为两类：部署配置参数（运行时参数）和生成控制参数。具体参数如下： ### 一、部署配置参数（运行时参数）这些参数影响模型运行时的资源分配和性能，通常在启动模型时通过命令行或环境变量设置。 1. **GPU相关参数**： - `--num_gpu_layers`：指定在GPU上运行的模型层数。这个值越大，GPU使用越多，CPU使用越少。例如，对于70B的大模型，可能需要设置较高的层数（如40层）以充分利用GPU[^1][^3]。 - `OLLAMA_NUM_GPU`：环境变量，用于指定使用的GPU数量（多GPU情况）[^1]。 2. **CPU相关参数**： - `--num_threads`：设置CPU线程数，通常设置为小于或等于CPU核心数的两倍[^1]。 - `OLLAMA_NUM_THREADS`：环境变量，设置CPU线程数[^1]。 3. **内存管理参数**： - `--num_ctx`：设置上下文窗口大小（即最大可以处理的token数）。增大此值会显著增加显存占用（因为显存占用与上下文长度的平方成正比）[^1][^3]。 - `--batch_size`：批处理大小，影响每次处理的token数量。增大批处理大小可以提高吞吐量，但也会增加显存占用[^1]。 4. **其他运行时参数**： - `--host`：指定Ollama服务监听的地址（默认为127.0.0.1:11434）[^1]。 - `--port`：指定端口（如果默认端口被占用）[^1]。 ### 二、生成控制参数这些参数在模型运行时通过API请求或交互式对话设置，用于控制生成文本的质量和多样性。 1. **随机性控制**： - `temperature`：温度参数，控制输出的随机性。值越低输出越确定（接近贪婪搜索），值越高输出越随机。通常设置在0.1到1.0之间[^1]。 - `top_p`：核采样（nucleus sampling）参数，控制候选词的概率累积阈值。例如，0.9表示只考虑概率质量累计占前90%的词[^1]。 - `top_k`：每步采样候选词的数量限制。例如，top_k=50表示只考虑概率最高的50个词[^1]。 2. **长度与重复控制**： - `num_predict`（或`max_new_tokens`）：控制生成的最大token数量[^1]。 - `repeat_penalty`：重复惩罚因子，大于1.0的值会抑制重复生成[^1]。 ### 三、模型选择参数在部署前，用户需要选择模型，这相当于选择了结构参数（如模型规模、架构等）。Ollama通过模型名称和标签来指定： - 例如：`ollama run llama3`（默认8B版本）或`ollama run llama3:70b`（70B版本）[^3]。 - 还可以选择带量化参数的模型，如`mistral:7b-instruct-q4_0`（4位量化）[^3]。 ### 四、自定义模型参数如果用户需要自定义模型（如使用自己下载的模型），可以通过创建Modelfile来配置模型参数，包括基础模型、参数适配等[^4]。 ### 参数调整示例启动一个70B的Llama3模型，使用40层GPU计算，8个CPU线程，上下文长度为4096，温度0.7： ```bash ollama run llama3:70b --num_gpu_layers 40 --num_threads 8 --num_ctx 4096 --temperature 0.7 ``` ### 总结使用Ollama部署大模型时，可调整的参数包括： 1. **部署配置参数**：GPU层数、CPU线程数、上下文长度、批大小等。 2. **生成控制参数**：温度、top_p、最大生成长度等。 3. **模型选择参数**：模型名称及版本（决定模型规模等结构参数）。这些参数需要根据硬件资源和任务需求进行调整，以达到性能与效果的平衡[^1][^3]。 §§相关问题§§ 1. 如何根据GPU显存大小调整`--num_gpu_layers`参数？ 2. 在Ollama中如何设置环境变量（如`OLLAMA_NUM_GPU`）？ 3. 温度参数（temperature）和top_p参数如何配合使用以控制生成文本的多样性？</think>以下是使用Ollama部署大模型时需要调整的核心参数及详细说明： ### 一、模型部署参数（运行时参数） 1. **GPU计算层数** `--num_gpu_layers`：指定GPU承担的模型层数 - **作用**：平衡GPU/CPU负载 - **示例**： ```bash ollama run llama3 --num_gpu_layers 40 # 40层由GPU计算[^1][^3] ``` - **调整建议**： - 显存≥16GB：可设40-50层 - 显存8GB：建议20-30层 - 无GPU：设为0（纯CPU运行） 2. **CPU线程数** `--num_threads`：控制CPU并行计算能力 - **公式约束**： $$ \text{线程数} \leq \text{CPU物理核心} \times 2 $$ - **示例**： ```bash ollama run gemma:2b --num_threads 8 # 8线程运行[^2] ``` 3. **上下文窗口** `--num_ctx`：单次处理的token上限 - **显存影响**： $$ \text{显存占用} \propto (\text{num\_ctx})^2 $$ - **典型值**： - 轻量级：2048（如Gemma 2B） - 标准级：4096（Llama3 8B） - 大内存：8192（需≥24GB显存）[^3] ### 二、生成控制参数（推理调节） 1. **随机性控制** | 参数 | 作用 | 推荐值 | |---|---|---| | `--temperature` | 输出确定性<br>（0=确定，1=随机） | 0.7（平衡） | | `--top_p` | 候选词概率阈值 | 0.9（保留90%概率质量） | | `--top_k` | 候选词数量 | 50（常用） | **温度公式**： $$ P_{\text{adjusted}}(w) = \frac{\exp(\frac{\log P(w)}{\tau})}{\sum \exp(\frac{\log P(w')}{\tau})} $$ （$\tau$=温度值） 2. **长度控制** `--num_predict`：最大生成长度 - **示例**：限制生成100个token ```bash ollama run mistral --num_predict 100 ``` ### 三、模型选择参数（结构参数） 1. **模型规模** | 命令 | 参数量 | 显存需求 | |---|---|---| | `ollama run llama3` | 8B | ≥8GB | | `ollama run llama3:70b` | 70B | ≥48GB[^3] | | `ollama run gemma:2b` | 2B | ≥4GB | 2. **量化版本**（降低显存） ```bash ollama pull mistral:7b-instruct-q4_0 # 4-bit量化版[^3] ``` ### 四、内存管理参数 | 参数 | 作用 | 资源影响 | |---|---|---| | `--batch_size` | 批处理样本数 | 显存 $\propto$ batch_size | | `OLLAMA_MAX_VRAM` | 显存上限 | 避免OOM错误 | **多GPU支持**： ```bash export OLLAMA_NUM_GPU=2 # 使用2块GPU[^1] ``` ### 五、参数调整示例 **高性能场景**（RTX 4090+64GB内存）： ```bash ollama run llama3:70b \ --num_gpu_layers 99 \ # 全GPU计算 --num_ctx 8192 \ # 长上下文 --temperature 0.8 # 高创造性 ``` **低资源场景**（笔记本CPU）： ```bash ollama run gemma:2b \ --num_gpu_layers 0 \ # 纯CPU模式 --num_threads 4 \ # 4线程 --num_ctx 1024 # 短上下文 ``` > **关键提示**：通过`ollama list`查看已安装模型[^3]，首次运行自动下载模型（需20-100GB磁盘空间） --- ### 参数耦合关系 ```mermaid graph LR A[模型规模] --> B(显存需求) B --> C{GPU层数调整} C --> D[生成质量] D --> E[响应速度] F[线程数] --> C G[上下文长度] --> B ``` > 大模型需优先保证`num_gpu_layers`足够，否则性能断崖下降[^1][^3]