腾讯混元四款轻量化模型开源:消费级设备可部署,端侧AI应用加速落地
8月4日,腾讯混元正式对外发布0.5B、1.8B、4B、7B四款小尺寸开源模型。这一系列模型主打轻量化特性,可直接在消费级显卡上运行,不仅适用于低功耗场景,还支持用户进行低成本微调。目前,四款模型已同步在开源社区上线,同时多家消费级终端芯片平台也宣布将支持其部署工作。
此次发布的四款模型均属于融合推理模型,核心优势在于推理速度快且性价比高。针对不同使用需求,模型提供“快思考”与“慢思考”两种模式切换:快思考模式专注于提供简洁高效的输出结果,适用于日常快速问答等场景;慢思考模式则擅长处理复杂问题,能够展现更全面的推理步骤,满足深度分析需求。在性能表现上,这四款模型在语言理解、数学运算、逻辑推理等核心领域均有出色表现,在多个公开测试集上的成绩已超越同尺寸模型平均水平。
部署门槛的降低是此次开源的另一大亮点。该系列模型支持单卡部署,部分PC、手机、平板等终端设备可直接接入运行。同时,模型对主流推理框架和多种量化格式均保持高度兼容性,进一步提升了开发者的使用便捷性。值得关注的是,四款模型还具备突出的智能体(agent)能力和长文本处理能力,原生长上下文窗口达到256k,这意味着模型可一次性处理约40万中文汉字或50万英文单词的超长内容——相当于连续阅读3本经典小说后,仍能准确记住所有人物关系、剧情细节,并基于这些信息展开后续故事创作讨论。
在应用落地方面,腾讯内部已有多个业务场景完成了小尺寸模型的集成应用。例如,腾讯会议AI小助手与微信读书AI问书功能已实现对完整会议内容、整本书籍的一次性理解与处理。端侧应用场景中,腾讯手机管家借助小尺寸模型优化了垃圾短信识别算法,将拦截响应速度提升至毫秒级,同时实现用户隐私数据“零上传”;腾讯智能座舱助手则通过双模型协作架构,充分发挥小尺寸模型低功耗、高效推理的特性,有效解决了车载环境下的交互延迟与算力受限问题。随着开源生态的完善,这些轻量化模型有望在更多终端设备与行业场景中加速渗透,推动端侧AI应用体验的全面升级。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



