对于唐叔而言,本地安装大语言模型大语言模型的必要性:使用在线的模型,超级容易出现“服务器繁忙,请稍后再试”[手动狗头]。
开玩笑啦。对于普通用户来说,如果你使用AI仅仅是为了答疑解惑,其实用在线网页版基本就满足诉求了,DeepSeek服务器繁忙只是短期的,后面肯定会改进的,再不济,也可以用用其他在线大语言模型,比如kimi或者通义千问。
对于大多数人来说,本地部署大语言模型,无外乎可以处理敏感数据、离线使用AI以及折腾模型,虽然其实感觉对大多数人来说,这并不是刚需的[再次狗头]。当然,对于唐叔而言,作为本地搭建知识库、辅助第二大脑,乃至跨界联想激活创作灵感,本地大语言模型确实是不错的助手。
好啦,如果你也有搭建本地大语言模型的诉求,就跟着唐叔继续往下吧。
一、安装大语言模型工具
1.1 大语言模型工具选型
在动手安装之前,得先选好工具。市面上有不少大语言模型工具,我来和大家说说几个主流的,帮助大家挑到心仪的那一个。以下是几个主流 大语言模型 工具的对比:
名称 | 说明 | 使用场景 | 特点&概括 |
---|---|---|---|
Ollama | 一个能让你在自己电脑上免费玩AI模型的“魔法盒子” | - 技术宅想折腾模型(改参数、测性能); - 处理敏感数据(比如分析内部文件,怕上传到网上不安全); - 纯离线使用(断网也能玩AI)。 | 特点:需要敲命令行,适合有点技术基础的人。 一句话概括:想研究模型怎么工作→ 选 Ollama(技术宅必备) |
LM Studio | 一个“模型体验店”,让你在电脑上零门槛试用各种AI模型。 | 普通用户想免费体验AI(比如试试不同模型哪个更聪明); 研究者快速对比模型效果; 临时需要本地运行模型(比如写小说、翻译文档)。 | 特点:完全图形界面,不用懂技术,但对企业级功能支持较弱。 一句话概括:只想简单玩玩AI模型 → 选 LM Studio(小白友好,点开就用) |
经过对比,我最终选择了 Ollama,毕竟唐叔是个技术宅嘛,肯定得深入研究一番[臭屁一下]。
1.2 Ollama安装
要安装 Ollama,首先得从官网下载。访问官网地址:Ollama 官网,找到下载页面。
点击download
选择Windows
下载完成后,直接双击ollama安装包安装即可
1.2.1 迅雷加速下载
如果下载速度太慢,别担心,可以使用迅雷加速下载。
https://objects.githubusercontent.com/github-production-release-asset-2e65be/658928958/36ca2c6f-e290-4af2-b650-f89c1158514f?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250209%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250209T084105Z&X-Amz-Expires=300&X-Amz-Signature=f072b5e80eeec652db5d455b9406d356cef80618ae1a4f408dd2012cf147bc05&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3DOllamaSetup.exe&response-content-type=application%2Foctet-stream
在迅雷的搜索框输入上述ollama的下载链接,下述弹框提示选择下载即可。
1.2.2 调整大语言模型安装路径
由于ollama无法自定义大语言模型安装路径,而默认的安装路径是C盘,也就是系统盘。
为减少系统盘的占用,可以通过符号链接,将安装链接到其他盘,以D盘为例。
找到ollama的安装路径:C:\Users\<YourUser>\.ollama\
,<YourUser>
为你本机的用户名。删除models文件夹:
在D盘创建一个新文件夹,如:D:\OllamaModels
使用管理员打开终端以便建立符号链接:Windows搜索框输入“cmd”,以管理员身份运行。
输入指令,进行符号链接:mklink /D C:\Users\<YourUser>\.ollama\models D:\OllamaModels
。
这样,Ollama 的 model 文件夹就会通过符号链接“搬家”到 D 盘啦!后续所有的大语言模型就都会安装到D盘啦!
二、安装大语言模型
安装完工具后,接下来就是选择模型了。这一步得根据自己电脑的配置来决定。电脑配置不同,能支撑的模型大小也不同。
2.1 查看电脑配置
在 Windows 系统中,按下 Ctrl + Shift + Esc
打开任务管理器,就能看到当前电脑的配置信息,比如 CPU、内存、显存等。
2.2 大语言模型参数选型
以下是不同规模大语言模型模型的参数及对应的电脑配置推荐:
模型规模 | 参数量(B) | CPU要求 | 内存要求(GB) | 硬盘要求(GB) | 显卡要求(显存GB) | 备注 |
---|---|---|---|---|---|---|
小型模型 | 1.5 | 4核+ | 8+ | 3+ | 无(可选4+) | 适合轻量级推理,可无GPU |
中型模型 | 7 | 8核+ | 16+ | 8+ | 8+(推荐) | 推荐使用GPU加速 |
大型模型 | 14 | 12核+ | 32+ | 15+ | 16+(推荐) | 需要较高内存和显存 |
超大型模型 | 32 | 16核+ | 64+ | 30+ | 24+(推荐) | 推荐使用高端显卡或双卡 |
极大型模型 | 70 | 32核+(服务器级) | 128+ | 70+ | 40+(多卡并行) | 适合专业用途,需多卡 |
超大规模模型 | 671 | 64核+(服务器集群) | 512+ | 300+ | 80+(多节点分布式) | 适合大规模训练和部署,需云服务支持 |
通用建议
-
量化优化:使用4-bit/8-bit量化可降低显存占用30-50%。
-
推理框架:搭配v大语言模型、TensorRT等加速库提升效率。
-
云部署:70B/671B模型建议优先考虑云服务以弹性扩展资源。
-
能耗注意:32B+模型需高功率电源(1000W+)和散热系统。
也就是唐叔的电脑可以支持7B左右的大语言模型。
2.3 大语言模型厂家选型
毫无疑问,当前首推是DeepSeek的大语言模型。具体到他家的大语言模型,参考官方说明,大体区别和适用场景如下:
Model | Base Model | CPU(核数)/内存(GB)/硬盘(GB)/显存(GB) | 适用场景 |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 4/8/3/无(可选4) | 个人开发者、低资源设备用户、嵌入式系统 |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 8/16/8/8(推荐) | 中小型企业开发测试、中等复杂度NLP任务 |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 8/16/8/8(推荐) | 需更高精度的轻量级任务(如代码生成) |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 12/32/15/16(推荐) | 企业级复杂任务、长文本理解与生成 |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 16/64/30/24(推荐) | 高精度专业领域任务、多模态任务预处理 |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 32/128/70/多卡并行(如2x80GB) | 科研机构、大型企业、高复杂度生成任务 |
基于上述适用场景,最终唐叔选择的是基于Llama-3.1-8B微调后的DeepSeek-R1-Distill-Llama-8B模型。
注意:DeepSeek实际上开源了V3和R1两个大语言模型,以下是两者的区别,日常说的本地化部署一般指的是R1大语言模型。
-
V3的定位:作为通用型大语言模型,V3通过高效架构与多模态能力覆盖广泛场景,尤其适合需快速响应和多任务处理的场景。
-
R1的定位:专为深度推理设计,通过强化学习在数学、编码等复杂任务中表现突出,适合需逻辑链分析的垂直领域。
-
协同关系:R1基于V3的基础能力进一步优化,两者可结合使用(如用V3生成初稿,R1进行逻辑校验)。
2.4 安装DeepSeek模型
在命令行输入指令来安装 DeepSeek 的模型:ollama run deepseek-r1:8b
。
Tip:这个指令会自动下载并安装模型,后续运行时只需要再次输入该指令即可。
基本使用,直接提问即可。
三、安装图形化界面(GUI)
3.1 图形化界面选型
虽然通过命令行可以直接使用,但是图形化界面会更加直观和方便。市面上有多种本地 GUI 客户端工具,以下是几个主流 GUI 工具的对比:
工具名称 | 特点 | 适用场景 |
---|---|---|
LobeChat | - 支持多种主流大语言模型(如ChatGPT、Google Gemini等) - 支持多模态AI能力 - 提供丰富的插件生态系统和智能会话管理功能 - 支持本地Docker运行及多平台部署 | 适合需要使用多种语言模型、多模态功能及插件扩展的用户,如开发者、研究人员等 |
Open WebUI | - 可扩展、功能丰富且用户友好 - 支持离线运行,兼容多种大语言模型运行器 - 支持模型微调、对话标记及模型管理 | 适合个人开发者、中小型企业,用于本地模型的快速部署和微调 |
Enchanted | - 专为MacOS/iOS/iPadOS平台设计 - 界面简洁直观,性能出色 - 提供安全、私密的AI体验 | 适合苹果生态用户,尤其是对界面和性能有较高要求的个人用户 |
Chatbox | - 跨平台开源客户端应用(支持Windows/MacOS/Linux/iOS/Android) - 支持多种大语言模型 - 无需部署,开箱即用 | 适合多平台用户,尤其是需要快速体验不同语言模型的用户 |
NextJS Ollama LLM UI | - 极简主义设计,界面美观简洁 - 支持本地模型的核心功能 - 基于浏览器的全平台支持 | 适合追求简约风格的用户,尤其是对界面设计有较高要求的个人用户 |
AnythingLLM | - 支持将多种文档类型整合进知识库 - 提供智能检索和文档管理功能 - 支持多种语言模型 | 适合企业内部文档管理、个人知识管理及依赖文本内容的问答场景 |
Dify | - 多功能AI应用构建平台 - 支持多种语言模型和插件扩展 - 提供对话流管理和可视化配置 | 适合需要快速搭建复杂AI应用、进行团队协作及插件集成的开发者和团队 |
这里唐叔最终选择的是AnythingLLM,主要是考虑到后期可能会基于AnythingLLM可以搭建本地知识库,以便进行个人知识管理。
3.2 AnythingLLM安装
官网下载链接:Windows Installation ~ AnythingLLM
直接选择下载安装即可。
安装时,建议自定义安装位置:
安装完成后,等待其加载即可。
PS:唐叔当时安装时,本地遇到了这个报错,看着是影响部分功能使用,不过当前基本使用不受影响,所以也就没管它了。
3.3 AnythingLLM配置模型
点击左下角的设置
选择LLM首选项,下拉选择Ollama,即会自动检测当前本地已安装的Ollama大语言模型,点击保存即可,再点击左下角返回即可。
点击创建工作区
创建完毕后,即可在工作区使用大语言模型了。
写在最后
现在,本地大语言模型已经成功搭建完成,你可以尽情地和模型对话,享受它带来的智能体验啦!