TPAMI 2025
多模态大模型+MOE
1 方法
- 在阶段 2 中精调的专家实现了更快的收敛,并在混合模态数据集上展现了更好的稳定性。
在处理涉及视频、音频、图像和文本的复杂混合模态数据时,采用四个专家的模型相比于使用两个专家的模型,显示出更低的损失波动和更一致的训练表现。
Uni-MoE 显示出比使用辅助平衡损失的模型更好的收敛性,因为后者导致了整体训练损失的波动,并且未能显现出明显的收敛性。
TPAMI 2025
多模态大模型+MOE
在处理涉及视频、音频、图像和文本的复杂混合模态数据时,采用四个专家的模型相比于使用两个专家的模型,显示出更低的损失波动和更一致的训练表现。
Uni-MoE 显示出比使用辅助平衡损失的模型更好的收敛性,因为后者导致了整体训练损失的波动,并且未能显现出明显的收敛性。