腾讯混元开源轻量级翻译模型Hunyuan-MT-7B,斩获国际赛事30项冠军
9月1日,腾讯混元正式对外宣布,将旗下自主研发的国际翻译模型Hunyuan-MT-7B进行开源,供全球开发者获取与部署。这款模型以仅70亿的参数量,实现了33个语种的互译支持,其中涵盖5种民族语言及方言,展现出轻量级模型的强大翻译能力。
在刚刚结束的国际计算语言学协会(ACL)WMT2025国际机器翻译大赛中,腾讯混元团队以Shy-hunyuan-MT为参赛名称提交的Hunyuan-MT-7B模型,在全部31个语种的竞赛项目中一举夺得30个冠军席位,创下赛事历史最佳成绩。此次竞赛覆盖的语种不仅包括中、英、日等主流语言,还包含捷克语、马拉地语等多种小语种,充分验证了模型在低资源语言翻译场景下的卓越表现。值得关注的是,WMT25赛事对参赛模型的参数规模有着严格限制,且要求所有参赛系统必须满足开源条件并仅使用公开数据训练,在这样的严苛条件下,Hunyuan-MT-7B能够击败众多大参数模型夺冠,凸显了其在算法优化与数据利用方面的核心优势。
如上图所示,该架构图完整呈现了Hunyuan-MT-7B从数据输入到结果输出的全流程处理链路。这一系统化的训练范式充分体现了腾讯混元在翻译模型研发上的技术深度,为开发者理解模型工作原理提供了清晰的可视化参考。
除赛事成绩外,Hunyuan-MT-7B在业界权威的Flores200翻译测评数据集上同样表现优异,其翻译质量不仅显著超越同尺寸模型,甚至可与部分超大参数模型相媲美。腾讯混元团队表示,这一成果得益于其独创的全链条翻译模型训练范式,该范式涵盖预训练、持续预训练(CPT)、监督调参、翻译强化学习及集成强化等关键技术环节,构建了一套完整的翻译质量优化体系。
此次同步开源的还有业界首个翻译集成模型Hunyuan-MT-Chimera-7B(奇美拉),该模型创新性地引入多模型融合机制,能够根据输入文本特征及多个基础翻译模型的输出结果,智能生成更优翻译版本。奇美拉模型不仅原生支持Hunyuan-MT-7B,还预留了与deepseek等第三方模型的对接接口,为专业翻译场景提供了更高精度的解决方案。
目前,腾讯混元翻译模型已在腾讯会议、企业微信、QQ浏览器、翻译君及海外客服系统等多个核心业务场景落地应用,有效提升了跨语言沟通效率。开发者可通过腾讯混元官网体验入口直接测试模型效果,同时Hunyuan-MT-7B的完整代码、技术报告及相关论文已在Huggingface、Gitcode等开源社区同步发布,其中模型仓库地址为https://gitcode.com/tencent_hunyuan/Hunyuan-MT-Chimera-7B。
此次开源行动不仅展现了中国AI企业在自然语言处理领域的技术实力,更为全球机器翻译技术的发展提供了重要的开源基础设施。随着Hunyuan-MT-7B的广泛应用,预计将在跨境电商、国际交流、多语言内容创作等领域催生更多创新应用,推动翻译技术向更高效、更普惠的方向发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



