此前,我们分享了《个人和企业必看,DeepSeek从1.5B到671B模型的选型与部署指南》,有开发者在卓普云的账号下留言,希望可以了解如何在GPU云服务器上微调 DeepSeek 模型。在此教程中,我们将探索如何利用 DigitalOcean 的 GPU Droplet 云服务器微调 DeepSeek-R1 的蒸馏量化版本,将其转化为专门的推理助手。
由于每个公司的领域不同,使用 DeepSeek 的目的不一样。我们不可能面面俱到。这篇文章是针对如何将 DeepSeek R1 模型微调成一个针对医疗推理 AI 助手的实践过程。这个助手可以帮助医生分析患者病例,提出诊断建议,并提供经过验证的结构化的推断依据与结论。希望这样的一篇DeepSeek R1 模型微调实践,可以作为你在针对其他领域特点微调 DeepSeek R1 模型的参考。
特别鸣谢 : 感谢这篇优秀的DataCamp教程和论文——《HuatuoGPT-o1:基于LLM的医疗复杂推理探索》,它为本教程提供了启发。
预备知识
掌握以下内容将有助于您更好地理解本教程内容:
- Python和PyTorch
- 深度学习基础(如神经网络、超参数等)
- 使用Hugging Face模型和Transformers库的经验
- 对 DigitalOcean 云平台的 GPU Droplet 服务器有大致的了解(可参考卓普云官网的信息来了解)
何时使用微调(Fine-tuning)?
微调是通过在精心准备的数据集上进一步训练预训练模型,使其适应特定任务。它在需要统一格式、特定语气要求或复杂指令的场景中可以获得很好的推理效果,因为它能优化模型在这些特定用例中的行为。相比从头开始训练模型,微调通常需要更少的计算资源和时间。但在开始微调前,开发者也应对比其他替代方案,从中选择最优解,例如提示工程(Prompt Engineering)、检索增强生成(RAG)或从头训练模型。
| 方法 | 何时考虑使用? |
| 提示工程 | 通过现有模型能力设计精确指令来引导模型行为。可参考我们其他的教程《通过DigitalOcean的一键模型部署功能:使用LLM进行社交媒体分析入门》《如何创建电子邮件newsletter生成器》 |
| 检索增强生成(RAG) | 在目标是整合新的或最新的信息时,检索增强生成(RAG)通常是更合适的选择。RAG允许模型访问外部知识,而无需修改其底层参数。 |
| 从头训练模型 | 在需要模型可解释性和可理解性的应用场景中,从头开始训练模型可能会更有益。这种方法让你对模型的架构、数据和决策过程拥有更大的控制权。 |
你可以将不同的方法进行组合,例如微调(fine-tuning)和检索增强生成(RAG)。通过将微调用于建立稳健的基线,同时结合RAG来处理动态更新,系统能够在无需持续重新训练的情况下实现适应性和高效性。归根结底,这取决于你们团队的资源限制和期望的性能表现。
确保输出结果达到预期用途的标准,并在未达到时进行迭代或调整。
在我们确定微调是我们要采取的方法后,我们就需要准备必要的组件。
Tips:DeepSeek R1 是一个开源的先进推理模型,擅长文本生成、总结和翻译任务。作为目前可用的最具性价比的开源大语言模型之一。DigitalOcean的GPU Droplets,提供包括H200、H100、L40s、MI300X在内的多种GPU,并提供云服务器与裸金属服务器可供选择,价格低于传统大厂,并支持多种功能付费方式,详情可扫描文末二维码咨询DigitalOcean中国区独家战略合作伙伴卓普云。
微调模型需要什么?
预训练模型
预训练模型是一个已经在大型通用数据集上训练过的神经网络。Hugging Face 提供了大量开源模型供您使用。
在本教程中,我们将使用非常流行的推理模型 DeepSeek-R1。推理模型在处理复杂的数学或编程问题等高级任务方面表现出色。我们选择 “unsloth/DeepSeek-R1-Distill-Llama-8B-bnb-4bit” 是因为它经过蒸馏和预量化,使其成为一个更节省内存且成本效益更高的模型,适合进行实验。我们特别好奇它在复杂任务(如医学分析)中的潜力。请注意,由于推理模型通常计算成本高且输出冗长,使用它们来处理摘要或翻译等简单任务可能会大材小用。
数据集
Hugging Face 拥有丰富的数据集资源。我们将使用医学 O1 推理数据集。该数据集是通过 GPT-4o 搜索结果生成的,具体方法是搜索可验证的医学问题解决方案,并通过医学验证器进行验证。
我们将使用此数据集进行监督微调(SFT),即在指令和响应数据集上训练模型

最低0.47元/天 解锁文章
1334

被折叠的 条评论
为什么被折叠?



