免费GPU算力部署DeepSeek-R1 32B

部署运行你感兴趣的模型镜像

本文介绍利用飞桨AI Studio每日免费提供GPU算力资源部署DeepSeek-R1 32B。进一步,还可以通过frp内网穿透让windows部署的Dify连接飞桨服务器上部署的ollama。另外,我们也可以利用GPU算力学习其它知识:模型微调,模型训练,深度学习训练等。

前言

DeepSeek-R1发布最新版本DeepSeek-R1-0528,显著提升了模型的思维深度与推理能力,在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。另外,API接口还增加了Function Calling和JsonOutput 的支持。

DeepSeek-R1团队已经证明,大模型的推理模式可以蒸馏到小模型中,与通过强化学习在小模型上发现的推理模式相比,性能更优。ollma上可以下载不同参数尺寸(1.5B到70B)的蒸馏模型,参数越大,性能越好。

飞桨AI Studio每日免费提供GPU算力资源,具体配置如下:

  • V100 16GB显存:可以跑14B尺寸模型,每日免费使用4小时。
  • VT100 32GB显存:可以跑32B尺寸模型,每日免费使用2.7小时。

创建项目

打开https://aistudio.baidu.com/account,点击右上方“登录”按钮,用百度账号登录即可。

打开https://aistudio.baidu.com/my/project,点击右上方“创建项目”,选择“Notebook”,会弹出下方的对话框。填写“项目名称”,点击创建。

在打开的页面中,点击上面的“未运行”。

在弹出的页面中,选择“基础版”运行环境。“基础版”运行环境免费不限时,用于下载ollama和deepseek模型。等下载完后再切换到GPU环境。

环境启动后,点击右上角的“专业开发”,进入Codelab IDE界面。

Codelab IDE界面如下:

安装ollama

设置目录

在Codelab IDE界面中,选择“文件”=》“新建”=》“终端”,进入shell界面,执行以下命令(每次启动环境都要执行),以便ollama下载的模型能保存在~/work/.ollama,这样才能持久化保存。

复制

cd ~/work && mkdir -p .ollama && ln -sfn ~/work/.ollama ~/
  • 1.
下载ollama

飞桨AI Studio无法访问github,需通过代理网站ghproxy.cn进行下载。命令如下:

复制

cd ~/work
wget -c https://ghproxy.cn/https://github.com/ollama/ollama/releases/download/v0.8.0/ollama-linux-amd64.tgz
tar zxf ollama-linux-amd64.tgz
  • 1.
  • 2.
  • 3.

下载deepseek模型

启动ollama服务。

复制

~/work/bin/ollama serve
  • 1.

新建终端,输入命令下载deepseek-r1 32b模型。

复制

~/work/bin/ollama pull deepseek-r1:32b
  • 1.

如果发现下载速度低于1MB/s,可尝试重新执行pull(但不要重启ollama serve的进程)。

启动deepseek

切换到GPU环境

打开https://aistudio.baidu.com/my/project,停止运行中的CPU环境 。

点击项目,在项目详情页面中,点击上面的“未运行”。

在弹出的页面中,选择“V100 32GB”运行环境。每天免费获得8点算力,可用2.7小时,昨天用剩的算力可以结余到今天使用。

因为切换环境,系统需要同步文件,在Codelab IDE右下角会有同步进度显示。

启动ollama服务

复制

cd ~/work && mkdir -p .ollama && ln -sfn ~/work/.ollama ~/  && ~/work/bin/ollama serve
  • 1.
启动DeepSeek

新建终端,输入以下命令启动deepseek。

复制

~/work/bin/ollama run deepseek-r1:32b
  • 1.

运行成功后就可以开始体验deepseek的魅力了。

测试

下图为经典问题:9.9和9.11比较,哪个更大。

总结

本文介绍利用飞桨AI Studio每日免费提供GPU算力资源部署DeepSeek-R1 32B。进一步,还可以通过frp内网穿透让windows部署的Dify连接飞桨服务器上部署的ollama。另外,我们也可以利用GPU算力学习其它知识:模型微调,模型训练,深度学习训练等。

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### 如何在本地部署 DeepSeek-R1 32B 模型 #### 准备环境 为了成功地在本地环境中部署 DeepSeek-R1 32B 模型,首先需要准备合适的硬件和软件环境。推荐配置如下: - GPU:建议至少配备一块 NVIDIA A100 或者 V100 显卡,拥有足够的显存来加载大型模型。 - CPU:多核心处理器有助于加速数据预处理和其他辅助任务。 - RAM:充足的内存对于支持整个系统的稳定运行至关重要。 安装必要的依赖库之前,确保操作系统已更新至最新版本并启用了虚拟化功能[^1]。 #### 安装依赖项 使用 Python 和 PyTorch 是最常见的做法之一。可以通过 pip 工具快速安装所需包: ```bash pip install torch transformers accelerate bitsandbytes ``` 上述命令将会下载并安装 PyTorch 及其扩展模块 `transformers` ,这是 Hugging Face 提供的一个非常流行的自然语言处理工具箱,专门用于操作各种类型的 Transformer 架构模型。 #### 下载模型权重文件 访问 Ollama 平台获取经过优化后的 DeepSeek-R1 32B 版本。登录账户后按照指引完成授权流程即可开始下载过程。注意保存好所得到的 checkpoint 文件夹路径以便后续调用。 #### 编写推理脚本 创建一个新的 Python 脚本来实现简单的交互界面以及执行预测任务的功能。下面是一个基本的例子: ```python from transformers import AutoModelForCausalLM, AutoTokenizer def load_model(model_path): tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", # 自动分配到可用设备上 offload_folder="./offload", trust_remote_code=True ) return tokenizer, model if __name__ == "__main__": MODEL_PATH = "path/to/your/downloaded/checkpoint" tokenizer, model = load_model(MODEL_PATH) while True: user_input = input("请输入您的问题 (输入 'exit' 结束): ") if user_input.lower() == 'exit': break inputs = tokenizer(user_input, return_tensors='pt').to('cuda') outputs = model.generate(**inputs, max_length=50) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"模型的回答: {response}") ``` 这段代码实现了从加载模型到接收用户提问直至给出回应的一系列操作。特别需要注意的是,在实例化 Model 对象时传入了几个重要参数以确保最佳性能表现,比如自动映射计资源(`device_map`)、指定溢出目录(`offload_folder`)等设置可以有效缓解因显存不足而导致的问题发生概率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值