DeepSeek-R1模型本地部署教程

ollama

下载

ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma等开源的大型语言模型。

Ollama目前支持以下大语言模型:https://ollama.com/library

下载地址:Ollama

安装完后可以看命令行是否安装成功

模型选择

搜索deepseek-r1

选择模型推理模式

模型大小和显卡、内存资源表格

本机用的mac m4芯片 16+512配置,可以使8B模型流畅运行

然后选择适合本机的模型大小命令在终端运行。

安装好后就可以使用模型了

输入/bye可退出命令行

chatbox

虽然终端可以直接运行,但是不方便。这里推荐chatbox

Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

安装地址:Chatbox AI官网:办公学习的AI好助手,全平台AI客户端,官方免费下载

也可以使用在线版本

点击设置

进行如下配置

开启新对话就可以直接使用了!

模型差异

这里就用豆包(在线)和deepSeek-r1 8b(本地)来做一个比较。

学术问题

勾股定理

豆包

deepSeek-r1

代码问题

CAS

豆包

deepSeek-r1

逻辑问题

喜欢装好人的王老汉被警察发现家里冰柜装满了好人,那他是不是好人

豆包

deepSeek-r1

差异

相比于线上给用户使用的豆包,本地部署的deepSeek-r1会把自己的思考过程给写出来,也就是它应该如何去回答用户提出的问题。

资源占用情况

本地使用deepSeek-r1 8b模型生成对话,后台占用资源情况。

内存

cpu

        

### 豆包大模型本地部署方法与教程 豆包大模型(DouBao Model)作为一种先进的深度学习模型,其本地部署需要结合硬件配置、软件环境以及具体的工具链来完成。以下是关于豆包大模型本地部署的相关信息和教程: #### 1. 硬件需求 在进行本地部署前,需要确保计算机的硬件配置满足运行大模型的需求。尽管大模型训练阶段需要高昂的计算资源,但部署后的推理阶段对硬件的要求相对较低[^1]。然而,为了保证流畅运行,建议使用以下配置: - **CPU**:高性能多核处理器。 - **GPU**:推荐使用 NVIDIA GPU,支持 CUDA 和 cuDNN 的版本。 - **内存**:至少 16GB RAM,推荐 32GB 或更高。 - **存储**:足够的硬盘空间以存储模型文件和缓存数据。 #### 2. 软件环境准备 在本地部署豆包大模型之前,需要安装并配置以下软件环境: - **操作系统**:推荐使用 Linux(如 Ubuntu 20.04+)或 Windows 10/11- **Python**:安装 Python 3.8 或更高版本。 - **CUDA 工具包**:如果使用 NVIDIA GPU,需安装对应版本的 CUDA 驱动程序[^2]。 - **依赖库**:安装必要的 Python 库,例如 `transformers`、`torch` 和 `numpy`。 ```bash pip install transformers torch numpy ``` #### 3. 模型管理工具 为了简化模型部署过程,可以使用专门的模型管理工具,例如 OllamaOllama 提供了友好的命令行界面,用于下载、加载和运行大模型[^2]。 ```bash # 安装 Ollama curl https://ollama.ai/install.sh | sh # 下载豆包大模型 ollama pull doubao-model # 运行模型 ollama run doubao-model ``` #### 4. 可视化交互工具 为了增强用户体验,可以集成可视化交互工具,例如 Open-WebUI 或 Chatbox。这些工具提供了图形化的用户界面,方便用户与模型进行交互[^2]。 ```bash # 安装 Open-WebUI git clone https://github.com/open-webui/chat.git cd chat pip install -r requirements.txt # 启动 WebUI python app.py ``` #### 5. 性能优化 为了提高模型的运行效率,可以采取以下措施: - 使用 NVIDIA 驱动和 CUDA 工具包加速推理过程[^2]。 -模型进行量化处理(例如 INT8 量化),以减少内存占用和提升速度。 - 配置 GPU 批量大小(Batch Size)以平衡性能和资源消耗。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer # 加载模型和分词器 model = AutoModelForCausalLM.from_pretrained("doubao-model", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("doubao-model") # 推理示例 input_text = "你好,豆包!" inputs = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_length=50) print(tokenizer.decode(outputs[0])) ``` #### 6. 自定义安装路径 如果需要自定义模型的安装路径,可以使用打包工具将相关文件和脚本封装成可执行程序。例如,使用 PyInstaller 将 Python 脚本转换为独立的可执行文件。 ```bash # 安装 PyInstaller pip install pyinstaller # 打包脚本 pyinstaller --onefile your_script.py ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

故离ovo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值