评估moe论文
Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks
我们在基于测验的MMLU基准测试(Hendrycks等人,2020)上评估了预训练的OLMoE模型,
- 在这个基准测试的推理过程中,有多少个专家至少被激活了一次?
考虑到专家总数为64个,我们观察到在整个MMLU数据集中,超过60%的专家从未被激活。
全文一共16层,每层64个专家。
至少在1%的数据中被激活的专家(列名:“Appearances”)。在第一层MoE中有12个这样的专家,在最后一层MoE中有17个。
门控网络输出的分布是什么样的?它是趋向于尖锐还是更接近均匀?
均匀。
ai代表门控网络输出,我们使用自然熵作为不确定性的度量。当一个专家的概率接近1时,它会收敛到零,这意味着只有这个专家对结果有贡献。相反,当分布是均匀的,熵达到其最大值。具体来说,对于具有8个结果的离散分布,最高的熵值为2.0794。
根据表格中报告的熵值,我们得出结论:每个专家的分布远非稀疏,而是更趋向于均匀。我们认为这种行为可能是由于训练过程中引入的辅助损失造成的,这迫使模型大致相同次数地激活每个专家。这防止了模型收敛到一小部分偏好的专家,从而确保所有专家都能被充分利用。
-
所有专家在准确率方面表现是否相同?
对于第一层MoE,有7个专家几乎在所有情况下都被激活,意味着它们出现在超过95%的数据中。排名前八的专家主要来自三个索引分别为19、26和52的专家。然而,这些专家的准确率差异显著。
对于最后一层MoE,只有3个专家在超过95%的情况下被激活,这为门控网络在选择不同专家时提供了更大的灵活性。就准确率而言,我们观察到与第一层MoE相似的模式:一些专家的准确率显著高于平均水平(例如,专家12),而另一些专家的表现则明显较差(例如,专家34和30)。
对未来的指引
这些发现表明,未来研究的一个潜在方向可能是通过增加高准确率专家的概率和/或减少表现不佳专家的概率来调整门控输出概率。这一点尤其相关,因为门控概率分布几乎是均匀的(见第3.1节)。这种均匀性意味着高准确率专家与前八名专家之间的概率差异相对较小。
一些细节
熵值越高代表越平均,专家的贡献分布越均匀。
熵的标准差每一层内不同数据点之间熵值的变化程度。也就是熵的稳定性。
每个专家的分布远非稀疏,而是更趋向于均匀。
熵从第一层到最后一层有增加的趋势。
趋势。
第一层具有最低的熵,而最后一层则拥有最高的熵之一。