Qwen3
文章平均质量分 93
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字
如何在MacBook上使用MLX框架微调Qwen3模型 本文介绍了在MacBook上使用苹果MLX深度学习框架微调Qwen3大语言模型的方法。通过MLX-LM工具包,作者展示了如何利用苹果芯片的统一内存架构高效训练模型,仅需2分钟即可完成500步训练,内存占用低于2GB。教程包含数据准备(使用self-cognition数据集)、模型配置(Qwen3-0.6B)、Lora微调参数设置,以及模型部署为API服务的完整流程。实验证明,微调后的模型能成功学习新的身份信息,单请求推理速度可达10toks/s。文章还原创 2025-10-14 06:45:00 · 671 阅读 · 0 评论 -
Qwen模型系列演进:从Qwen1到Qwen3-Next的技术革新之路
摘要:本文系统梳理了阿里通义千问大模型从Qwen1到Qwen3-Next的技术演进历程。Qwen1(2023)奠定了RoPE位置编码、PreRMSNorm等基础架构;Qwen1.5(2024)引入稀疏专家系统(MoE)和GQA注意力;Qwen2(2024)全面采用GQA并扩展训练数据至7T tokens;Qwen2.5(2024)实现100万tokens长文本处理;Qwen3(2025)创新性提出动态思考机制和QK-RMSNorm技术,模型规模达480B参数。这一系列演进展现了从基础架构优化到推理能力突破的原创 2025-09-17 07:45:00 · 1610 阅读 · 0 评论 -
Qwen3-Next:迈向更极致的训练推理性价比
Qwen团队发布新一代大模型Qwen3-Next,采用混合注意力机制与高稀疏度MoE架构,显著提升训练和推理效率。其80B参数模型仅激活3B参数,训练成本不到Qwen3-32B的10%,在长上下文任务中推理吞吐提升10倍以上。新模型在基准测试中表现优异,部分指标接近旗舰模型Qwen3-235B,并支持256K超长上下文处理。团队同时开源了相关代码和最佳实践,包括Transformers、SGLang和vLLM部署方案,以及微调指导。该架构创新为大模型发展提供了新方向,团队将持续优化并开发Qwen3.5版本。原创 2025-09-13 08:31:44 · 1145 阅读 · 0 评论 -
Qwen3 TTFT 性能对比-底层原理详解
通义千问Qwen3系列是2025年推出的新一代大语言模型,包含8B和14B等参数版本,均支持32Ktoken长上下文处理。Qwen3-8B响应速度更快(TTFT 150-300ms),适合低延迟交互场景;Qwen3-14B推理能力更强,但TTFT较高(200-400ms)。两者均采用RoPE+YaRN技术支持长文本,其中8B版本通过FP8量化显著提升推理效率。实际部署时,8B适合单卡运行,14B需多卡并行。系列模型通过架构优化、量化技术和缓存管理等手段,在长文本处理与推理效率间取得平衡,满足多样化应用需求。原创 2025-08-19 08:00:00 · 1661 阅读 · 0 评论
分享