【GPT入门】第55课 deepseek 8b的学生模型训练前后的变化内容

原创已于 2025-08-23 06:52:57 修改 · 429 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-08-22 17:42:11 首次发布

大模型专栏收录该内容

92 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【GPT入门】第55课 deepseek 8b的学生模型训练前后的变化内容

如果教师模型是DeepSeek R1，学生模型是基于Qwen3蒸馏得到的DeepSeek 8B，那么逻辑会调整为：

ollama介绍：
https://ollama.com/library/deepseek-r1:8b
在这里插入图片描述

deepseek8b 是 qwen3学习得来

1. Qwen3作为学生模型的初始基础，训练前后参数是否变化？

会发生显著变化。
此时，Qwen3的角色是学生模型的“初始骨架”——蒸馏的核心是让Qwen3（作为待训练的学生）学习教师模型DeepSeek R1的知识和行为模式。因此，Qwen3的参数会在训练过程中被不断优化和调整，最终形成新的学生模型（DeepSeek 8B）。
简单说：Qwen3是“原材料”，经过蒸馏训练后，其参数被改写，成为了DeepSeek 8B的参数。

2. 训练后，变化的是什么？

学生模型（Qwen3→DeepSeek 8B）的参数：
Qwen3的初始参数会通过蒸馏目标（如模仿DeepSeek R1的输出分布、损失函数优化等）被持续更新，最终形成与原始Qwen3参数完全不同的DeepSeek 8B参数。这些参数保留了Qwen3的参数量级（或经过裁剪后固定为8B），但编码了教师模型DeepSeek R1的知识。
模型的行为与性能：
训练后，DeepSeek 8B的输出会更接近教师模型DeepSeek R1（例如推理逻辑、回答风格、任务准确率等），同时保持较小的参数量（8B），实现“小模型逼近大模型性能”的目标。
与教师模型的关联：
教师模型DeepSeek R1的参数通常不变（作为固定的“知识范本”），但其输出（如预测概率、中间特征等）会作为学生模型的学习目标，引导Qwen3的参数向更优方向调整。

总结

教师模型（DeepSeek R1）：参数固定，提供学习目标和知识范本。
学生模型（基于Qwen3训练得到的DeepSeek 8B）：Qwen3的初始参数被改写，最终形成新的参数体系，同时继承了教师模型的核心能力。

蒸馏的关键是学生参数的重塑，而非教师参数的修改，目标是让小模型通过学习教师的“经验”，在有限参数量下达到更优性能。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。