极市平台 | Qwen架构改造成Deepseek,再复现R1计划

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:Qwen架构改造成Deepseek,再复现R1计划

极市导读

本文提出一种TransMLA的方法,能将目前主流模型如LLaMA-3,Qwen-2.5等模型中的GQA统统等价变换为能力更强的MLA。 

前言

Model Context window Max CoT tokens Max output tokens 1M tokens (Cached) Input 1M tokens Output
DeepSeek-V3 64K - 8K 0.07/0.27 1.10
GPT-4o 128K - 16K 1.25/2.50 10.00
GPT-4o-mini 128K - 16K 0.075/0.15 0.60
Claude 3.5 Sonnet 200K - unknown 0.3/3 15
Claude 3.5 Haiku 200K -
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值