【限时免费】从ERNIE家族V1到ERNIE-4.5-VL-28B-A3B-Base-PT：进化之路与雄心-优快云博客

从ERNIE家族V1到ERNIE-4.5-VL-28B-A3B-Base-PT：进化之路与雄心

【免费下载链接】ERNIE-4.5-VL-28B-A3B-Base-PT ERNIE-4.5-VL-28B-A3B 是百度研发的先进多模态大模型，采用异构混合专家架构（MoE），总参数量280亿，每token激活30亿参数。深度融合视觉与语言模态，支持图像理解、跨模态推理及双模式交互（思维/非思维模式）。通过模态隔离路由和RLVR强化学习优化，适用于复杂图文任务。支持FastDeploy单卡部署，提供开箱即用的多模态AI解决方案。项目地址: https://gitcode.com/paddlepaddle/ERNIE-4.5-VL-28B-A3B-Base-PT

引言：回顾历史

ERNIE（Enhanced Representation through kNowledge IntEgration）是百度推出的一个系列化AI模型家族，从最初的ERNIE 1.0到如今的ERNIE-4.5-VL-28B-A3B-Base-PT，其演进历程见证了AI技术的飞速发展。早期的ERNIE模型主要聚焦于文本理解与生成，通过知识增强技术显著提升了中文任务的表现。随着多模态技术的兴起，ERNIE家族逐渐扩展至视觉-语言联合建模，形成了强大的多模态能力。

ERNIE-4.5-VL-28B-A3B-Base-PT带来了哪些关键进化？

2025年6月30日，百度正式发布了ERNIE-4.5-VL-28B-A3B-Base-PT，作为ERNIE家族的最新成员，它在技术和应用层面带来了多项突破：

多模态异构MoE预训练
ERNIE-4.5采用了异构混合专家（MoE）架构，通过模态隔离路由和路由器正交损失等技术，实现了文本与视觉模态的高效联合训练。这种设计避免了模态间的干扰，同时提升了跨模态推理能力。
高效扩展的基础设施
模型引入了异构混合并行和层次化负载均衡策略，结合FP8混合精度训练和细粒度重计算方法，显著提升了训练效率。在推理阶段，通过多专家并行协作和卷积编码量化算法，实现了4比特/2比特无损量化，进一步降低了资源消耗。
模态特定的后训练优化
针对不同应用场景，ERNIE-4.5提供了针对性的后训练优化。例如，视觉语言模型（VLM）支持“思考”与“非思考”两种模式，并通过监督微调（SFT）和统一偏好优化（UPO）等方法，进一步提升了任务适应性。

设计理念的变迁

从ERNIE 1.0到4.5，设计理念经历了从单一模态到多模态、从静态知识增强到动态跨模态学习的转变。ERNIE-4.5的核心在于“模态协同”，即通过异构MoE架构实现文本与视觉的深度融合，而非简单的拼接或对齐。

“没说的比说的更重要”

ERNIE-4.5的亮点不仅在于其技术细节，更在于其背后的设计哲学。例如：

分阶段训练策略：模型首先专注于文本能力的构建，随后引入视觉参数，逐步实现多模态能力的融合。
资源高效利用：通过动态角色切换和参数共享，最大化硬件资源的利用率。

这些“未言明”的设计选择，恰恰是ERNIE-4.5能够在复杂任务中脱颖而出的关键。

结论：ERNIE-4.5-VL-28B-A3B-Base-PT开启了怎样的新篇章？

ERNIE-4.5-VL-28B-A3B-Base-PT不仅是ERNIE家族的技术巅峰，更是多模态AI领域的一次重要突破。它通过异构MoE架构、高效扩展策略和模态协同优化，为复杂场景下的AI应用提供了全新的解决方案。未来，随着多模态技术的进一步成熟，ERNIE家族有望在更广泛的领域发挥其潜力，推动AI技术的边界不断扩展。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

【限时免费】 从ERNIE家族V1到ERNIE-4.5-VL-28B-A3B-Base-PT：进化之路与雄心