腾讯混元大语言模型家族全新发布:从0.5B到7B参数规模,全方位赋能多场景智能应用
模型概述
腾讯混元(Hunyuan)是腾讯自主研发的开源高效大语言模型系列,旨在为不同计算环境下的多样化部署需求提供全方位支持。无论是资源受限的边缘设备,还是高并发的生产系统,该系列模型均能凭借先进的量化技术支持和超长上下文处理能力,实现性能与效率的最优平衡。
目前,混元系列已发布涵盖0.5B、1.8B、4B和7B四种参数规模的稠密模型,包括预训练版本和指令微调版本。这些模型沿用了与Hunyuan-A13B相同的训练策略,因而继承了其卓越的性能基因。这一完整的模型家族为灵活部署优化提供了可能——从资源紧张的边缘计算场景选用小参数模型,到高吞吐量的生产环境部署大参数模型,均能在各类场景中保持强大的任务处理能力。
如上图所示,该标志以蓝白渐变的圆形图案为主体,搭配黑色的“Tencent Hunyuan”文字标识。这一品牌形象不仅直观展现了混元模型的科技感与专业性,也象征着腾讯在人工智能领域的技术积淀与创新实力,为用户提供了对混元系列模型的第一印象认知。
核心特性与竞争优势
- 混合推理模式:创新性支持快速思考与深度思考两种推理模式,用户可根据实际任务需求灵活切换,在效率与准确性之间取得最佳平衡。
- 超长上下文理解:原生支持256K上下文窗口,能够在处理长文本任务时保持稳定的性能表现,轻松应对各类文档理解、多轮对话等场景。
- 增强型智能体能力:针对智能体任务进行专项优化,在BFCL-v3、τ-Bench和C3-Bench等权威评测基准中均取得领先成绩,展现出强大的自主决策与任务执行能力。
- 高效推理引擎:采用分组查询注意力(Grouped Query Attention,GQA)技术,并支持多种量化格式,有效降低推理过程中的计算资源消耗,提升部署效率。
最新动态
- 2025年7月30日,腾讯正式在Hugging Face平台开源了Hunyuan-0.5B-Pretrain、Hunyuan-0.5B-Instruct、Hunyuan-1.8B-Pretrain、Hunyuan-1.8B-Instruct、Hunyuan-4B-Pretrain、Hunyuan-4B-Instruct、Hunyuan-7B-Pretrain和Hunyuan-7B-Instruct等多款模型,进一步推动大语言模型技术的开放与普及。
性能评测
注:以下评测结果均由TRT-LLM-backend在各基础模型上完成。
| 模型 | Hunyuan-0.5B-Pretrain | Hunyuan-1.8B-Pretrain | Hunyuan-4B-Pretrain | Hunyuan-7B-Pretrain |
|---|---|---|---|---|
| MMLU(多任务语言理解) | 54.02 | 64.62 | 74.01 | 79.82 |
| MMLU-Redux(精简版多任务语言理解) | 54.72 | 64.42 | 73.53 | 79 |
| MMLU-Pro(专业版多任务语言理解) | 31.15 | 38.65 | 51.91 | 57.79 |
| SuperGPQA(超级通用问答评估) | 17.23 | 24.98 | 27.28 | 30.47 |
| BBH(大基准测试集) | 45.92 | 74.32 | 75.17 | 82.95 |
| GPQA(通用问答评估) | 27.76 | 35.81 | 43.52 | 44.07 |
| GSM8K(数学问题求解) | 55.64 | 77.26 | 87.49 | 88.25 |
| MATH(数学竞赛问题) | 42.95 | 62.85 | 72.25 | 74.85 |
| EvalPlus(代码评估增强版) | 39.71 | 60.67 | 67.76 | 66.96 |
| MultiPL-E(编程语言理解) | 21.83 | 45.92 | 59.87 | 60.41 |
| MBPP(代码生成) | 43.38 | 66.14 | 76.46 | 76.19 |
| CRUX-O(复杂代码理解) | 30.75 | 36.88 | 56.5 | 60.75 |
| Chinese SimpleQA(中文简单问答) | 12.51 | 22.31 | 30.53 | 38.86 |
| simpleQA (5shot)(少样本简单问答) | 2.38 | 3.61 | 4.21 | 5.69 |
| 任务类别 | 评测基准 | Hunyuan-0.5B-Instruct | Hunyuan-1.8B-Instruct | Hunyuan-4B-Instruct | Hunyuan-7B-Instruct |
|---|---|---|---|---|---|
| 数学能力 | AIME 2024 AIME 2025 MATH | 17.2 20 48.5 | 56.7 53.9 86 | 78.3 66.5 92.6 | 81.1 75.3 93.7 |
| 科学知识 | GPQA-Diamond OlympiadBench | 23.3 29.6 | 47.2 63.4 | 61.1 73.1 | 60.1 76.5 |
| 编程能力 | Livecodebench Fullstackbench | 11.1 20.9 | 31.5 42 | 49.4 54.6 | 57 56.3 |
| 推理能力 | BBH DROP ZebraLogic | 40.3 52.8 34.5 | 64.6 76.7 74.6 | 83 78.2 83.5 | 87.8 85.9 85.1 |
| 指令遵循 | IF-Eval SysBench | 49.7 28.1 | 67.6 55.5 | 76.6 68 | 79.3 72.7 |
| 智能体能力 | BFCL v3 τ-Bench ComplexFuncBench C3-Bench | 49.8 14.4 13.9 45.3 | 58.3 18.2 22.3 54.6 | 67.9 30.1 26.3 64.3 | 70.8 35.3 29.2 68.5 |
| 长上下文处理 | PenguinScrolls longbench-v2 FRAMES | 53.9 34.7 41.9 | 73.1 33.2 55.6 | 83.1 44.1 79.2 | 82 43 78.6 |
Transformers框架使用指南
首先,请安装transformers库。我们后续将把相关支持合并到主分支。
pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca
混元模型默认采用深度思考推理模式,用户可通过以下两种方式禁用思维链(CoT)推理:
- 调用apply_chat_template时传入**"enable_thinking=False"**参数。
- 在提示词前添加**"/no_think"可强制模型不使用思维链推理;同样,在提示词前添加"/think"**可强制模型启用思维链推理。
量化压缩技术
我们采用自研的AngleSlim压缩工具,成功生成了FP8和INT4量化模型。AngleSlim是一套致力于打造更易用、更全面、更高效的模型压缩解决方案的工具集。
FP8量化
我们采用FP8静态量化方案,该方案使用8位浮点格式,通过少量校准数据(无需训练)预先确定量化尺度,将模型权重和激活值转换为FP8格式,从而有效提升推理效率并降低部署门槛。用户既可以使用AngleSlim工具自行量化,也可以直接下载我们已完成量化的开源模型LINK。
Int4量化
我们采用GPTQ和AWQ算法实现W4A16量化(权重4位,激活值16位)。
GPTQ算法对模型权重进行逐层处理,利用少量校准数据最小化量化权重的重构误差,并通过近似海森矩阵逆的优化过程逐层调整权重。该过程无需重新训练模型,仅需少量校准数据即可完成权重量化,有效提升推理效率并降低部署门槛。 AWQ算法则利用少量校准数据(无需训练),统计激活值的幅度分布。对于每个权重通道,计算缩放系数s以扩展重要权重的数值范围,从而在量化过程中保留更多信息。
量化性能评测
本部分介绍混元量化模型的评测指标。
| 评测基准 | 量化方式 | Hunyuan-0.5B-Instruct | Hunyuan-1.8B-Instruct | Hunyuan-4B-Instruct | Hunyuan-7B-Instruct |
|---|---|---|---|---|---|
| DROP | B16 FP8 Int4GPTQ Int4AWQ | 52.8 51.6 50.9 48.9 | 76.7 75.1 73.0 71.7 | 78.2 78.3 78.1 78.2 | 85.9 86.0 85.7 85.9 |
| GPQA-Diamond | B16 FP8 Int4GPTQ Int4AWQ | 23.3 22.5 23.3 23.3 | 47.2 47.7 44.43 43.62 | 61.1 60.2 58.1 - | 60.1 60.1 60.0 60.1 |
| OlympiadBench | B16 FP8 Int4GPTQ Int4AWQ | 29.6 29.6 26.8 26.3 | 63.4 62.5 60.9 61.7 | 73.1 73.1 71.1 71.2 | 76.5 76.6 76.2 76.4 |
| AIME 2024 | B16 FP8 Int4GPTQ Int4AWQ | 17.2 17.2 - - | 56.7 55.17 - - | 78.3 76.6 - - | 81.1 80.9 81.0 80.9 |
部署方案
在部署方面,用户可采用TensorRT-LLM、vLLM或SGLang等框架部署模型,并创建兼容OpenAI API的服务端点,轻松集成到各类应用系统中。
腾讯混元大语言模型系列的发布,标志着腾讯在开源大模型领域的又一重要进展。从0.5B到7B的全参数规模覆盖,结合先进的量化技术和优化部署方案,混元模型能够满足从边缘计算到云端服务的多样化需求。未来,腾讯将持续迭代优化混元系列模型,不断提升模型性能与部署效率,为开发者和企业用户提供更强大、更易用的AI基础设施,推动人工智能技术在各行业的广泛应用与创新发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



