paper reading 03 Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks

m0_73358879

于 2025-03-15 19:20:37 发布

阅读量368

点赞数 3

分类专栏：论文read 文章标签：人工智能自然语言处理 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_73358879/article/details/146283875

版权

论文read 专栏收录该内容

3 篇文章

订阅专栏

评估moe论文

Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks

我们在基于测验的MMLU基准测试（Hendrycks等人，2020）上评估了预训练的OLMoE模型，

在这个基准测试的推理过程中，有多少个专家至少被激活了一次？

考虑到专家总数为64个，我们观察到在整个MMLU数据集中，超过60%的专家从未被激活。
全文一共16层，每层64个专家。
在这里插入图片描述

至少在1%的数据中被激活的专家（列名：“Appearances”）。在第一层MoE中有12个这样的专家，在最后一层MoE中有17个。

在这里插入图片描述

门控网络输出的分布是什么样的？它是趋向于尖锐还是更接近均匀？

均匀。
在这里插入图片描述

ai代表门控网络输出，我们使用自然熵作为不确定性的度量。当一个专家的概率接近1时，它会收敛到零，这意味着只有这个专家对结果有贡献。相反，当分布是均匀的，熵达到其最大值。具体来说，对于具有8个结果的离散分布，最高的熵值为2.0794。
在这里插入图片描述

根据表格中报告的熵值，我们得出结论：每个专家的分布远非稀疏，而是更趋向于均匀。我们认为这种行为可能是由于训练过程中引入的辅助损失造成的，这迫使模型大致相同次数地激活每个专家。这防止了模型收敛到一小部分偏好的专家，从而确保所有专家都能被充分利用。

所有专家在准确率方面表现是否相同？

对于第一层MoE，有7个专家几乎在所有情况下都被激活，意味着它们出现在超过95%的数据中。排名前八的专家主要来自三个索引分别为19、26和52的专家。然而，这些专家的准确率差异显著。

对于最后一层MoE，只有3个专家在超过95%的情况下被激活，这为门控网络在选择不同专家时提供了更大的灵活性。就准确率而言，我们观察到与第一层MoE相似的模式：一些专家的准确率显著高于平均水平（例如，专家12），而另一些专家的表现则明显较差（例如，专家34和30）。

对未来的指引

这些发现表明，未来研究的一个潜在方向可能是通过增加高准确率专家的概率和/或减少表现不佳专家的概率来调整门控输出概率。这一点尤其相关，因为门控概率分布几乎是均匀的（见第3.1节）。这种均匀性意味着高准确率专家与前八名专家之间的概率差异相对较小。

一些细节

熵值越高代表越平均，专家的贡献分布越均匀。

熵的标准差每一层内不同数据点之间熵值的变化程度。也就是熵的稳定性。

每个专家的分布远非稀疏，而是更趋向于均匀。

熵从第一层到最后一层有增加的趋势。
趋势。

第一层具有最低的熵，而最后一层则拥有最高的熵之一。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。