【Llama】无需GPU轻松本地部署大模型

最新推荐文章于 2025-09-18 14:50:53 发布

原创最新推荐文章于 2025-09-18 14:50:53 发布 · 2.7k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#llama #人工智能 #大模型入门 #AI #本地部署大模型 #GPU #大模型技术

在AI飞速发展的时代，大模型如雨后春笋拔地而起，部署大模型已不再是什么高科技操作了，只要你的电脑满足基本配置要求使用Ollama就可以轻松在本地部署模型。

使用Ollama，首先了解一下Ollama：

简介

Ollama 是一个开源的大型语言模型（LLM）服务工具，旨在简化在本地运行大语言模型的过程，降低使用门槛，使开发者、研究人员和爱好者能在本地快速实验、管理和部署最新大语言模型，如 Qwen2、Llama3、Phi3、Gemma2等。它提供了一个简洁易用的命令行界面和服务器，让你能够轻松下载、运行和管理各种开源 LLM。

Ollama的优势

开源免费：Ollama及所支持的模型均开源免费，可自由使用、修改和分发。
简单易用：无需复杂配置，通过几条命令即可快速启动运行。
模型丰富：涵盖Llama 3、Mistral、Qwen2等众多热门开源LLM，支持一键下载切换。
资源占用低：对硬件要求不高，普通笔记本电脑也能流畅运行。
社区活跃：拥有庞大活跃社区，便于获取帮助、分享经验及参与模型开发。

Ollama的限制

按照官方的要求，电脑配置至少有 8 GB 可用内存来运行 7 B 型号，16 GB 来运行 13 B 型号，32 GB 来运行 33 B 型号。

如何使用 Ollama？

只需遵循以下步骤即可开始使用Ollama：

安装Ollama：依据操作系统，访问Ollama官网下载并安装最新版。
启动Ollama：点击Ollama应用直接启动。
下载模型：前往模型仓库，选中所需模型，用ollama pull下载，如ollama pull llama3:70b。
运行模型：使用ollama run启动模型，如ollama run llama3:70b。
开始聊天：在终端输入问题或指令，Ollama将依模型生成回复。
网络共享：在一台电脑部署模型，通过IP或服务形式共享给其他设备使用

官网

官网地址：ollama.com

进入官网看到这只可爱的羊驼那就对了。

在这里插入图片描述

文档

文档地址：github.com/ollama/olla…

官方文档托管在Github，打不开的尝试使用科学方式

注册登录

只是下载及运行模型不注册也可以，如需账号可以使用邮箱注册登录

在这里插入图片描述

模型广场

模型地址：ollama.com/library

在Ollama首页点击【Models】可以查看Ollama支持的所有模型列表。

在这里插入图片描述

点击模型即可看到模型的详细信息，包含介绍、安装方式等。

在这里插入图片描述

安装Ollama

安装包托管在Github，如果无法下载请科学上网

在Ollama官网首页点击【Download】，选择对应平台点击【Download for …】进行安装包下载

在这里插入图片描述

以Mac为例，下载完成后直接双击根据提示完成安装(安装过程很简单)，点击 Move to Applications ，按照建议，将其移动到应用程序文件夹下。Ollama默认会加入启动项，不需要的直接删除即可。

点击【Next】进行安装引导，Ollama需要插入 ollama 指令到命令行（后续直接在终端使用命令行操作），点击【Install】安装，输入电脑密码，点击【Finish】完成引导。

在这里插入图片描述

启动后看到状态栏中有Ollama模型表示启动成功，接下来就可以使用Ollama运行模型了

在这里插入图片描述

下载运行模型

官方建议：至少有 8 GB 可用内存来运行 7 B 型号，16 GB 来运行 13 B 型号，32 GB 来运行 33 B 型号。

在模型广场找到想要的模型，根据自己电脑配置选择满足条件的型号进行下载。

在这里插入图片描述

以 qwen2.5:14b 为例，在终端执行命令（如果本地没有对应模型，Ollama会先执行pull拉取，拉取完成后执行run运行）

$ ollama run qwen2.5:14b

运行成功后效果如下：

在这里插入图片描述

Ollama常用命令行操作

查看帮助

有任何命令行问题，都可以通过help命令查看帮助

$ ollama --help

在这里插入图片描述

举个例子，如想了解如何运行一个模型，可以这样查看

$ ollama run --help

在这里插入图片描述

最终得知 run 指令后面需要提供模型名称

$ ollama run 模型名称                  
如：
$ ollama run qwen2.5:1.5b

命令行方式启动Ollama

$ ollama serve

查看已下载模型

$ ollama list                  
或                  
$ ollama ls

在这里插入图片描述

打印信息中 NAME 就是模型的名称

查看正在运行的模型

$ ollama ps

在这里插入图片描述

查看模型详情

$ ollama show 模型名称

在这里插入图片描述

运行模型

$ ollama run 模型名称

停止模型

$ ollama stop 模型名称

删除模型

$ ollama rm 模型名称

基本使用

开始对话

模型启动后，在命令行直接输入提示词即可与模型进行对话。

在这里插入图片描述

在VSCode中使用

Continue插件配置相对简单一些

本地Ollama启动后默认端口号为 11434，在 Continue 插件中【API Provider】选择【Ollma】,【Base URL】默认为11434可以不填，输入模型名称 qwen2.5:14b，点击【Let’s go!】完成配置

在这里插入图片描述

使用Chat UI

如果觉得上面方式都不适合你，也可以选择使用像ChatGPT那样的现代聊天窗口工具，目前有很多，可以使用三方的，也自己clone本地运行：

LobeChat：lobehub.com/zh/features
ChatBox：chatboxai.app/zh
等等

这里以 Chatbox 为例简单实用，进入官网，点击【启动网页版】

在这里插入图片描述

进入网页版聊天页面，点击左下角【Settings】，设置完成后即可用使用Chat了。

在这里插入图片描述

使用体验

本人使用是Mac mini，无GPU，3.2 GHz 六核Intel Core i7，32G运行内存，500G存储分别跑了 qwen2.5:14b、qwen2.5:7b、qwen2.5:3b、qwen2.5:0.5b，目前为止只体验了模型响应速度：

终端模型：在终端直接使用模型聊天，qwen2.5:0.5b 响应速度秒回，qwen2.5:3b 响应速度较快，qwen2.5:7b 响应速度逐行，qwen2.5:14b响应速度较慢和逐词差不多
VS Code：在VS Code中配合 Continue 插件使用，效果体感较差，响应速度都很慢
ChatUI：使用不多，没有深度体验

只在VS Code + Continue中体验了qwen2.5:0.5b 的内容生成，提示到一半就死循环了，体感效果很差。