北京大学DeepSeek第3弹:DeepSeek-R1及类强推理模型开发解读

用最简单的语言,在 AI 时代,带领更多的人一起前行。

DeepSeek 官方网站:https://www.deepseek.com/

DeepSeek 团队多数来自清北团队。

我们来看看 DeepSeek-R1 背后的技术,使用了哪些?

1. 「混合专家模型」(MoE)

DeepSeek 的MoE包含1个共享专家(负责通用知识)和256个「路由专家」(负责细分领域)。每个问题激活 8 个专家,既保证专业性,又减少计算量。

处理问题只调用相关专家,其他专家进行休息。

2. 「MLA注意力机制」

传统模型处理长文本(比如100页文档)时,需要记住所有上下文,导致内存占用大、速度慢。MLA像压缩包技术,把关键信息压缩存储,需要时再解压,内存占用减少40%以上。

这个方法,在编程行业也是常常使用,比如延迟加载机制。

3. 「数据蒸馏」

大模型(教授)教小模型(小学生)做题,通过生成优质训练数据和微调,让小模型快速掌握核心技能。

限于篇幅,只列举 3 个。Kimi 1.5  则是利用强化学习,通过试错来解决问题。

北京大学 DeepSeek 系列教程:DeepSeek教程

学废了,帮忙点个赞!这对我非常重要!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值