简介: 通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
一、模型概述与上下文支持能力
Qwen3 系列是通义实验室于 2025 年推出的最新一代大语言模型,包含 6 个密集模型(Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B、Qwen3-32B)和 2 个 MoE 模型(Qwen3-30B-A3B、Qwen3-235B-A22B)。其中,Qwen3-8B 和 Qwen3-14B 作为中型和大型密集模型的代表,均支持 32K token 的上下文长度,但在响应速度(TTFT)和推理效率上存在显著差异。
1.1 模型参数量与架构差异
- Qwen3-8B:参数量为 8B,基于 LLaMA 架构改进,包含 64 个 Transformer 层,每层由 Attention 模块、Add/RMSNorm 模块和 MLP 模块组成 。
- Qwen3-14B:参数量提升至 14B,架构与 Qwen3-8B 类似,但通过增加参数规模强化了复杂推理能力 。
1.2 上下文扩展技术
两者均采用 RoPE(旋转位置编码) 支持长上下文,并通过 YaRN 技术 将上下文扩展至 128K token(默认为 32K)。然而,Qwen3-8B 在训练阶段引入了 梯度正则化策略优化(GRPO),通过高质量的长上下文数

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



