DeepSeek‑R1‑Distill‑Qwen‑1.5B 完整释义与合规须知
一句话先行
这是 DeepSeek‑AI 把自家 R1 大模型 的知识,通过蒸馏压缩进一套 Qwen‑1.5B 架构 的轻量学生网络,并以宽松开源许可证发布的模型权重。
1 | 名字逐段拆解
| 片段 | 意义 | 备注 |
|---|---|---|
| DeepSeek | 发布方 / 数据与训练团队 | DeepSeek‑AI 2024 年底起开放 R 系列权重与数据集 |
| R1 | Release‑1 教师模型系列 | 官方已公开 R1‑7B / R1‑MoE‑16B / R1‑67B 等 |
| Distill | 蒸馏工艺 | 让小模型模仿教师 logits / 隐层,保留知识、缩小体积 |
| Qwen | 学生模型骨架 | 采用 Qwen‑family 的 tokenizer、RoPE、配置文件;与 Qwen‑cpp / GGUF 生态兼容 |
| 1.5B |

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



