腾讯混元大语言模型家族全新发布：从0.5B到7B参数规模，全方位赋能多场景智能应用-优快云博客

腾讯混元大语言模型家族全新发布：从0.5B到7B参数规模，全方位赋能多场景智能应用

【免费下载链接】Hunyuan-0.5B-Pretrain 腾讯开源混元大模型系列中的高效轻量版本，专注性能与部署灵活性。0.5B参数规模兼顾边缘设备与高并发场景，支持256K超长上下文和混合推理模式，具备强大的智能体任务处理能力。模型采用分组查询注意力与多量化格式，推理高效且资源占用低，在数学、编程、科学推理等多项基准测试中表现优异，为开发者提供高性能、可定制的轻量化AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/Hunyuan-0.5B-Pretrain

模型概述

腾讯混元（Hunyuan）是腾讯自主研发的开源高效大语言模型系列，旨在为不同计算环境下的多样化部署需求提供全方位支持。无论是资源受限的边缘设备，还是高并发的生产系统，该系列模型均能凭借先进的量化技术支持和超长上下文处理能力，实现性能与效率的最优平衡。

目前，混元系列已发布涵盖0.5B、1.8B、4B和7B四种参数规模的稠密模型，包括预训练版本和指令微调版本。这些模型沿用了与Hunyuan-A13B相同的训练策略，因而继承了其卓越的性能基因。这一完整的模型家族为灵活部署优化提供了可能——从资源紧张的边缘计算场景选用小参数模型，到高吞吐量的生产环境部署大参数模型，均能在各类场景中保持强大的任务处理能力。

如上图所示，该标志以蓝白渐变的圆形图案为主体，搭配黑色的“Tencent Hunyuan”文字标识。这一品牌形象不仅直观展现了混元模型的科技感与专业性，也象征着腾讯在人工智能领域的技术积淀与创新实力，为用户提供了对混元系列模型的第一印象认知。

核心特性与竞争优势

混合推理模式：创新性支持快速思考与深度思考两种推理模式，用户可根据实际任务需求灵活切换，在效率与准确性之间取得最佳平衡。
超长上下文理解：原生支持256K上下文窗口，能够在处理长文本任务时保持稳定的性能表现，轻松应对各类文档理解、多轮对话等场景。
增强型智能体能力：针对智能体任务进行专项优化，在BFCL-v3、τ-Bench和C3-Bench等权威评测基准中均取得领先成绩，展现出强大的自主决策与任务执行能力。
高效推理引擎：采用分组查询注意力（Grouped Query Attention，GQA）技术，并支持多种量化格式，有效降低推理过程中的计算资源消耗，提升部署效率。

性能评测

注：以下评测结果均由TRT-LLM-backend在各基础模型上完成。

模型	Hunyuan-0.5B-Pretrain	Hunyuan-1.8B-Pretrain	Hunyuan-4B-Pretrain	Hunyuan-7B-Pretrain
MMLU（多任务语言理解）	54.02	64.62	74.01	79.82
MMLU-Redux（精简版多任务语言理解）	54.72	64.42	73.53	79
MMLU-Pro（专业版多任务语言理解）	31.15	38.65	51.91	57.79
SuperGPQA（超级通用问答评估）	17.23	24.98	27.28	30.47
BBH（大基准测试集）	45.92	74.32	75.17	82.95
GPQA（通用问答评估）	27.76	35.81	43.52	44.07
GSM8K（数学问题求解）	55.64	77.26	87.49	88.25
MATH（数学竞赛问题）	42.95	62.85	72.25	74.85
EvalPlus（代码评估增强版）	39.71	60.67	67.76	66.96
MultiPL-E（编程语言理解）	21.83	45.92	59.87	60.41
MBPP（代码生成）	43.38	66.14	76.46	76.19
CRUX-O（复杂代码理解）	30.75	36.88	56.5	60.75
Chinese SimpleQA（中文简单问答）	12.51	22.31	30.53	38.86
simpleQA (5shot)（少样本简单问答）	2.38	3.61	4.21	5.69

任务类别	评测基准	Hunyuan-0.5B-Instruct	Hunyuan-1.8B-Instruct	Hunyuan-4B-Instruct	Hunyuan-7B-Instruct
数学能力	AIME 2024 AIME 2025 MATH	17.2 20 48.5	56.7 53.9 86	78.3 66.5 92.6	81.1 75.3 93.7
科学知识	GPQA-Diamond OlympiadBench	23.3 29.6	47.2 63.4	61.1 73.1	60.1 76.5
编程能力	Livecodebench Fullstackbench	11.1 20.9	31.5 42	49.4 54.6	57 56.3
推理能力	BBH DROP ZebraLogic	40.3 52.8 34.5	64.6 76.7 74.6	83 78.2 83.5	87.8 85.9 85.1
指令遵循	IF-Eval SysBench	49.7 28.1	67.6 55.5	76.6 68	79.3 72.7
智能体能力	BFCL v3 τ-Bench ComplexFuncBench C3-Bench	49.8 14.4 13.9 45.3	58.3 18.2 22.3 54.6	67.9 30.1 26.3 64.3	70.8 35.3 29.2 68.5
长上下文处理	PenguinScrolls longbench-v2 FRAMES	53.9 34.7 41.9	73.1 33.2 55.6	83.1 44.1 79.2	82 43 78.6

Transformers框架使用指南

首先，请安装transformers库。我们后续将把相关支持合并到主分支。

pip install git+https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca

混元模型默认采用深度思考推理模式，用户可通过以下两种方式禁用思维链（CoT）推理：

调用apply_chat_template时传入**"enable_thinking=False"**参数。
在提示词前添加**"/no_think"可强制模型不使用思维链推理；同样，在提示词前添加"/think"**可强制模型启用思维链推理。

量化压缩技术

我们采用自研的AngleSlim压缩工具，成功生成了FP8和INT4量化模型。AngleSlim是一套致力于打造更易用、更全面、更高效的模型压缩解决方案的工具集。

FP8量化

我们采用FP8静态量化方案，该方案使用8位浮点格式，通过少量校准数据（无需训练）预先确定量化尺度，将模型权重和激活值转换为FP8格式，从而有效提升推理效率并降低部署门槛。用户既可以使用AngleSlim工具自行量化，也可以直接下载我们已完成量化的开源模型LINK。

Int4量化

我们采用GPTQ和AWQ算法实现W4A16量化（权重4位，激活值16位）。

GPTQ算法对模型权重进行逐层处理，利用少量校准数据最小化量化权重的重构误差，并通过近似海森矩阵逆的优化过程逐层调整权重。该过程无需重新训练模型，仅需少量校准数据即可完成权重量化，有效提升推理效率并降低部署门槛。 AWQ算法则利用少量校准数据（无需训练），统计激活值的幅度分布。对于每个权重通道，计算缩放系数s以扩展重要权重的数值范围，从而在量化过程中保留更多信息。

量化性能评测

本部分介绍混元量化模型的评测指标。

评测基准	量化方式	Hunyuan-0.5B-Instruct	Hunyuan-1.8B-Instruct	Hunyuan-4B-Instruct	Hunyuan-7B-Instruct
DROP	B16 FP8 Int4GPTQ Int4AWQ	52.8 51.6 50.9 48.9	76.7 75.1 73.0 71.7	78.2 78.3 78.1 78.2	85.9 86.0 85.7 85.9
GPQA-Diamond	B16 FP8 Int4GPTQ Int4AWQ	23.3 22.5 23.3 23.3	47.2 47.7 44.43 43.62	61.1 60.2 58.1 -	60.1 60.1 60.0 60.1
OlympiadBench	B16 FP8 Int4GPTQ Int4AWQ	29.6 29.6 26.8 26.3	63.4 62.5 60.9 61.7	73.1 73.1 71.1 71.2	76.5 76.6 76.2 76.4
AIME 2024	B16 FP8 Int4GPTQ Int4AWQ	17.2 17.2 - -	56.7 55.17 - -	78.3 76.6 - -	81.1 80.9 81.0 80.9

部署方案

在部署方面，用户可采用TensorRT-LLM、vLLM或SGLang等框架部署模型，并创建兼容OpenAI API的服务端点，轻松集成到各类应用系统中。

腾讯混元大语言模型系列的发布，标志着腾讯在开源大模型领域的又一重要进展。从0.5B到7B的全参数规模覆盖，结合先进的量化技术和优化部署方案，混元模型能够满足从边缘计算到云端服务的多样化需求。未来，腾讯将持续迭代优化混元系列模型，不断提升模型性能与部署效率，为开发者和企业用户提供更强大、更易用的AI基础设施，推动人工智能技术在各行业的广泛应用与创新发展。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

腾讯混元大语言模型家族全新发布：从0.5B到7B参数规模，全方位赋能多场景智能应用