用最简单的语言,在 AI 时代,带领更多的人一起前行。
DeepSeek 官方网站:https://www.deepseek.com/
DeepSeek 团队多数来自清北团队。
我们来看看 DeepSeek-R1 背后的技术,使用了哪些?
1. 「混合专家模型」(MoE)
DeepSeek 的MoE包含1个共享专家(负责通用知识)和256个「路由专家」(负责细分领域)。每个问题激活 8 个专家,既保证专业性,又减少计算量。
处理问题只调用相关专家,其他专家进行休息。
2. 「MLA注意力机制」
传统模型处理长文本(比如100页文档)时,需要记住所有上下文,导致内存占用大、速度慢。MLA像压缩包技术,把关键信息压缩存储,需要时再解压,内存占用减少40%以上。
这个方法,在编程行业也是常常使用,比如延迟加载机制。
3. 「数据蒸馏」
大模型(教授)教小模型(小学生)做题,通过生成优质训练数据和微调,让小模型快速掌握核心技能。
限于篇幅,只列举 3 个。Kimi 1.5 则是利用强化学习,通过试错来解决问题。
北京大学 DeepSeek 系列教程:DeepSeek教程
学废了,帮忙点个赞!这对我非常重要!