Ollama完成本地模型的运行

最新推荐文章于 2025-09-18 14:50:53 发布

原创最新推荐文章于 2025-09-18 14:50:53 发布 · 2.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#llama #langchain #人工智能 #LLM #程序员 #Ollama #大模型

简介

Ollama 是一个开源的大型语言模型（LLM）服务工具，它允许用户在本地运行和使用各种大型语言模型。Ollama 提供了一个命令行界面，支持多种流行的模型，如 Llama 3、Qwen 1.5、Mixtral、Gemma 等，并且用户可以根据自己的需求定制和创建模型。Ollama能够实现模型的本地运行，降低了模型开发的复杂度，无聊时AI开发的高手还是新人都可以快速使用Ollama完成模型本地运行。同时可以识别Nvidia、AMD的GPU，AVX、AVX2指令集的CPU。同时Ollama也支持MacOS、Windows，Linux主要的操作系统。

安装

进入Ollama官网，下载对应的Ollama客户端后安装即可。
在这里插入图片描述

安装完成后，打开powershell，输入ollama有help的内容输出就是安装成功了。

本地运行模型

这里有一个小技巧：Ollama默认大模型的目录在C盘当前用户目录下.ollama
目录下，非常占地方，所以我们要修改环境变量OLLAMA_MODELS为一个想存大模型的地方。

运行ollama命令完成模型下载和运行

ollama run llama3:8b

Ollama都支持什么模型

进入ollama官网的Models目录，可以看到所有的模型，点击任意一个模型（以llama3 为例），点击后可以看到支持的模型的介绍，以及通过Ollama运行的方法。
在这里插入图片描述

Ollama 在局域网内部署访问

Ollama的一些配置是通过环境变量控制的，那么无论是什么操作系统，都可以通过配置系统的环境变量或者通过设置临时的环境变量达到想要的结果，一些常用的环境变量如下：

OLLAMA_HOST:用来绑定OLLAMA的访问的IP和端口，这个其实很重要，用一些 Langchain、LLamaIndex等调用Ollama部署的模型的时候，都是通过这个配置的内容访问的。默认值“127.0.0.1:11434”，如果我们配置成“0.0.0.0:11434”，就可以让你局域网内的其他主机可以访问，但是要配合下面的环境变量一起使用。
OLLAMA_ORIGINS：这个是跨域源列表，说白了就是允许谁来访问，双引号中用英文都好分割。默认进本地可以访问，如果想让局域网内都可以访问，最好设置成“*”。
OLLAMA_MODELS：本地模型文件存储的位置，这个就按自己实际的模型位置设置，默认是存在当前用户目录下的.ollama/models或者/usr/share/ollama/.ollama/models。
OLLAMA_KEEP_ALIVE：模型在现存中保持加载的持续时长，这个默认“5m”，按需加载或者释放显卡显存可以降低显卡的压力，但是会带来磁盘IO的增加。
OLLAMA_DEBUG：调试日志，默认是关闭的。如果设置成1，就是开始，会看到很多调试日志。

Windows的设置

Windows的环境变量的设置（windows10为例）：
选择我的电脑点击右键，选择属性后点击高级系统设置就可以看到环境变量的按钮了，点击进入后可以看到有上下两部分，上面是用户变量，下面是系统变量。

用户变量：设置的改环境变量仅仅在当前用户登录才生效。
系统变量：任何用户登录该操作系统都生效。

在这里插入图片描述

完成设置后需要重启或者按照如下方法操作才能让环境变量生效。

在任何一个命令窗口（cmd.exe）中输入set PATH=C，然后关闭全部的命令窗口，再打开一个命令窗口重新启动Ollama就好了。

MacOS的设置

在MacOS可以通过launchctl设置环境变量，这个和Linux就很相似。launchctl 是一个在 macOS 系统中用于管理后台进程（也称为守护进程或服务）的命令行工具。它是 launchd 系统的一部分，launchd 是 macOS 的初始化系统和服务管理守护进程。使用 launchctl，用户和系统管理员可以加载、卸载、启动、停止和调试守护进程。launchctl常用命令如下：

加载一个守护进程：launchctl load [plist文件]
卸载一个守护进程：launchctl unload [plist文件]
启动一个守护进程：launchctl start [标签名]
停止一个守护进程：launchctl stop [标签名]
列出所有加载的守护进程：launchctl list
设置环境变量：launchctl setenv [环境变量]

那么，设置Ollama的环境变量如下：

launchctl setenv OLLAMA_HOST="0.0.0.0:11434"
launchctl setenv OLLAMA_ORIGINS="*"
launchctl setenv OLLAMA_MODELS="/models/"

完成如上设置后，需要重启Ollama，才能生效。

Linux的设置

Linux上我们需要讲Ollama配置到 systemd 服务运行，这样方便后续的使用。如果Linux可以链接互联网，那么运行如下命令。

curl -fsSL https://ollama.com/install.sh | sh

否则，我们需要手工下载Ollama，地址：https://ollama.com/download/ollama-linux-amd64，然后将下载的ollama复制到/usr/bin/位置，重命名为ollama,并修改一下全县sudo chmod +x /usr/bin/ollama

然后修改一下service文件，在其中加上环境变量。

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_MODEL=/home/syadmin/models/"

[Install]
WantedBy=default.target

然后通过systemctl deamon reload重新载入配置，再通过systemctl start ollama启动服务。

Ollama 常用命令

serve:启动ollama服务
create：从Modelfile中创建一个model（ollama create 模型名字 -f modelfile名字）
show：显示Model的信息
run：运行一个model，如果本地没有那么回去Ollama的中央仓库下载
pull：从中央仓库下载一个model
push：讲一个本地model推到中央仓库
list：显示本地模型列表，表头包含了模型名字（就是create命令中的模型名字，ID，大小和修改时间）
cp：本地复制一个Model
rm：删除一个本地Model
help：帮助

但是如果我们修改了启动端口，也就是我们设置了OLLAMA_HOST这个参数，那么我们直接运行Ollama的命令并不能生效，而是需要在前面加上OLLAMA_HOST的内容，具体如下：

OLLAMA_HOST=0.0.0.0:9000 olllama list

其他常用命令一样处理。

Ollama的模型导入

我们平时面对的场景中，服务器往往并不能链接互联网，因此我们就不能用上面介绍的Ollama的命令一样，运行命令直接获从Ollama中央仓库下载一个模型，Ollama为我们提供了一个导入模型的办法。最为直接的是导入量化后的模型，也就是GGUF格式。GGUF（GGML Universal File Format）是一种用于量化大语言模型（LLM）的格式，它允许模型在不同的硬件配置上运行，包括CPU和GPU。GGUF量化意味着将模型的权重和激活数据转换成一种更紧凑的表示形式，这样可以减少模型的内存占用和提高运行效率，这也叫量化模型。GGUF支持多种量化级别，包括FP16（16位浮点数）、int4（4位整数）等，通过量化可以减少模型的大小，使其更适合在资源受限的环境中运行。GGUF格式的设计旨在快速加载和保存模型，同时保持模型性能，它允许用户根据硬件条件选择不同的量化级别，以平衡模型的精度和效率。在很多下载模型的网站上可以下载到量化以后的模型，都是以.gguf作为扩展名。一般量化模型都会在名字后面加上一些量化选项的内容，例如我们有时候会看到q3_k.gguf的写法，这意味着权重或激活值将被量化为三位精度，即具有8个可能的取值（2^3 = 8）。

在Ollama中我们只要下载需要的.gguf文件，然后创建一个Modelfile文件，文件写入如下内容：

FROM ./Meta-Llama-3-8B.q4_0.gguf

然后运行如下命令就可以完成模型的导入了。

ollama create llama3:8b -f Modelfile

成功完成后，就可以使用该模型了。那么如果有些模型没有量化的模型的话，就需要自己动手了，这个主要是借助llama.cpp完成的，具体操作就不做详细说明了，需要的时候，在网上学习吧。

程序员为什么要学大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望