本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。
原文链接:Qwen架构改造成Deepseek,再复现R1计划
极市导读
本文提出一种TransMLA的方法,能将目前主流模型如LLaMA-3,Qwen-2.5等模型中的GQA统统等价变换为能力更强的MLA。
前言
Model | Context window | Max CoT tokens | Max output tokens | 1M tokens (Cached) Input | 1M tokens Output |
---|---|---|---|---|---|
DeepSeek-V3 | 64K | - | 8K | 0.07/0.27 | 1.10 |
GPT-4o | 128K | - | 16K | 1.25/2.50 | 10.00 |
GPT-4o-mini | 128K | - | 16K | 0.075/0.15 | 0.60 |
Claude 3.5 Sonnet | 200K | - | unknown | 0.3/3 | 15 |
Claude 3.5 Haiku | 200K | - |