大模型入坑指南一:本地部署大模型

本地部署大模型的好处

本地部署大模型就像是你私人定制的智能管家,住在你家,只为你服务。它把数据和计算都放在本地,就像把宝贝藏在自家保险箱,隐私和安全那叫一个踏实。而且,它反应超快,不用受网络波动影响,随叫随到,工作效率杠杠的。相比之下,网页版大模型更像是外面餐馆的大厨,虽然方便,但你得连上网才能找到它,万一网络卡壳或者高峰时段,就得慢慢等。而且,数据得在外部服务器上跑,隐私保护相对没那么让人放心。

了解完为什么要本地部署大模型后,下面介绍具体的部署方法。

方法一:Cherry Studio+Ollama

Ollama是一个开源的AI模型,用于管理下载到本地的大模型,Cherry Studio是一个功能全面、支持多平台的AI助手,拥有交互界面,能提升用户的使用感受。

步骤一:安装Ollama

1. 下载:官方网站:<Ollama>,直接下载exe安装包。

2. 安装:直接双击exe文件会默认安装到C盘(非常不建议)。在exe文件夹使用cmd打开终端,运行下方命令。安装路径(D:\LocalLlm\Ollama)可自行更换。

OllamaSetup.exe /DIR=D:\LocalLlm\Ollama

3. 配置环境变量:在环境变量中新建变量,并添加到path中。

OLLAMA_MODELS:模型文件存放目录,默认目录为当前用户目录(Windows 目录:C:\Users%username%.ollama\models,MacOS 目录:~/.ollama/models,Linux 目录:/usr/share/ollama/.ollama/models),如果是 Windows 系统建议修改(如:D:\OllamaModels),避免 C 盘空间吃紧

4. 卸载:运行ollama安装目录下的unins000.exe文件

步骤二:使用ollama下载大模型

1. 进入ollama官网,点击左上角models,可以看到有很多大模型,这里以deepseek-r1为例。

2. 找到deepseek-r1进入,可以选择模型大小,模型越大需要的硬件配置越好,这里建议选择1.5b进行尝试。复制红框中的代码到终端运行。

3.  在终端执行命令:ollama list 查看已安装的大模型,执行ollama run deepseek-r1:8b 运行大模型。这样就可以在终端与大模型进行对话了。

4.卸载:使用下方命令可以卸载指定大模型

ollama rm deepseek-r1:1.5b

到这里已经可以实现在终端与大模型进行对话了,但这样交互体验不如图形界面舒适,cherry studio可以很好地解决此方法。

步骤三:安装cherry studio

1. 下载:官方网站:<Cherry Studio 官方网站 - 全能的AI助手>,直接下载exe安装包。

2. 安装:双击exe文件正常安装即可。

步骤四:在cherry studio使用ollama的大模型

1.打开cherrystudio,点击左下角齿轮进入设置界面,选择ollma,打开左上角的开关

2.点击管理按钮,可以看到我们刚刚下载好的大模型,点击加号添加。

3.点击左侧栏的第一个按钮回到对话框,在红框位置可以选择下载好的大模型,然后就可以进行聊天了。

方法二:使用cherry studio+硅基流动

在方法一中,我们使用ollama下载大模型到本地,这样的好处是该模型可以免费使用,只要配置够高,你可以下载满血版的deepseek大模型。但对于个人用户而言,我们的硬件配置往往只能下载蒸馏版本(即阉割后的版本),蒸馏版本的性能会差一些。因此方法二给出cherry studio+硅基流动的方法。硅基流动是一站式大模型云服务平台,为开发者和企业提供高效、低成本且全面的生成式人工智能模型服务,用户可以在该平台上创建自己的账号并生成密钥,通过密钥使用该平台上的所有大模型,包括语言、图片、视频等。与法一相比,该方法使用大模型需要消耗token数(也就是需要付费),但可以使用满血版的deepseek,功能更强大,而且现在注册可以免费赠送2000万token,可以使用一段时间了,而且该平台也包含免费的蒸馏版本的大模型,包括在法一中下载的deepseek-r1:1.5b等。

1.根据法一安装好cherry studio

2.进入硅基流动官网:SiliconFlow, Accelerate AGI to Benefit Humanity,使用手机号码进行注册,现在注册可以免费赠送2000万的token,邀请码可以填写duLpFtbw。登录成功后,在左侧栏进入api密钥,新建一个api密钥,注意不要泄露自己的api密钥。

3.打开cherry studio,点击左下角齿轮进入设置,在api密钥框里粘贴刚刚生成的api密钥。

4.点击管理可以看到有很多的大模型,添加你想要使用的大模型。

5.按照方法一中步骤四的第三步,即可切换大模型进行聊天。

### 部署1.5B参数规模的AI模型 #### 创建Python文件并配置环境 为了成功部署具有1.5亿参数量级的Qwen1.5模型,在本地环境中需先设置好开发环境。这通常涉及安装必要的依赖库以及准备用于加载预训练权重的数据集或资源文件[^1]。 ```bash pip install torch transformers accelerate loralib datasets ``` 上述命令会安装PyTorch框架及其扩展包`transformers`,还有加速器工具箱`accelerate`来优化性能表现;另外也包含了支持低秩适应(LoRA)技术所需的`loralib`和处理数据集的相关模块。 #### 下载模型 通过Hugging Face提供的Transformers库可以方便地获取到指定版本的预训练模型。对于本案例中的Qwen系列模型而言,则可通过如下方式完成下载操作: ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "Qwen/Qwen-1.5B" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) ``` 这段代码片段展示了如何利用官方API接口从远程仓库拉取目标架构下的具体实例化对象——即带有特定超参设定与初始化策略的大规模语言生成网络结构。 #### Windows平台上的特殊注意事项 考虑到Windows操作系统特性及硬件条件(如配备RTX 4060 Ti显卡),建议采用混合精度计算模式以充分利用GPU算力的同时减少内存占用压力。此外还需注意驱动程序更新至最新稳定版,并确认CUDA Toolkit已正确安装且路径变量指向无误[^2]。 #### 应用LoRA微调方法 针对已有基础之上进步提升下游任务效果的需求场景下,可引少量参数调整方案之Low-Rank Adaptation (LoRA),其核心在于仅修改原生Transformer层内部某些矩阵分解后的子空间部分而非整体替换整个组件。实现过程大致如下所示: ```python import loralib as lora lora_config = { 'r': 8, 'alpha': 16, } for name, module in model.named_modules(): if isinstance(module, nn.Linear): setattr(model, name, lora.LoRALinear(**lora_config)) ``` 此段脚本遍历了神经元连接间的线性变换单元并将它们转换成具备自定义缩放因子特性的新型运算部件,从而达到既定目的同时保持原有功能不变形。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

10710

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值