Qwen架构改造成Deepseek,再复现R1计划

知乎:孟繁续(已授权)
链接:https://zhuanlan.zhihu.com/p/23355620415

图片

Deepseek使用更低的成本追赶OpenAI的效果

Deepseek使用更低的成本追赶OpenAI的效果

关注Deepseek也有一年多了,当时Mixtral-8x7B模型刚出来,我写了一篇分析其MoE架构的文章。Deepseek不久后推出了他们第一版Deepseek MoE模型,他们的工作人员看到文章加了我的微信;

Mixtral-8x7B 模型挖坑:
https://zhuanlan.zhihu.com/p/674751021

在做Paiss的时候,我就将Deepseek MoE视为主流模型进行了实验对比;

在Deepseek V2出来后,MLA架构巧妙地设计吸引了我。启发我做出CLOVER这篇文章。MLA中存在一个absorb操作,能将Key Weight吸收到Query Weight中,Value Weight吸收到Output Weight中,缺点是合并后参数量会变大。CLOVER先合并再分解,不改变模型结构就能得到正交的注意力头,对剪枝和微调都有很大的好处;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值