大模型算法题(7)

苍墨穹天

已于 2025-01-07 17:46:08 修改

阅读量679

点赞数 23

分类专栏：算法文章标签：算法人工智能深度学习

于 2025-01-07 14:01:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Mooczx/article/details/144984380

版权

1.MoE模型训练中，如果不对专家的路由进行适当干预，可能会遇到什么问题，有什么解决方法？

MoE使用多个并行的expert，每次推理只选择其中的一小部分expert使用。

如果让模型完全自行学习，有可能出现routing collapse的问题，也就是模型倾向于总是选择那几个常用的专家。

而这些常用的专家由于使用得更多，训练得更好，又会提升被路由到的概率，导致大部分模型参数几乎没有被用上。

一般可以通过增加一个负载平衡的loss来缓解。负载平衡loss有不同的设计和计算方式，但是大致的思路都是迫使模型均匀地使用不同的专家，如果出现某些专家被选中的概率过高，就会进行惩罚。

2.Bert的预训练方式是MLM，通过[Mask] token对部分输入进行掩盖，要求模型预测。为什么要使用[Mask] token而不直接修改attention mask矩阵？

直接修改attention mask矩阵也可以让模型看不到对应位置的输入，但是相比使用[Mask] token缺少了位置编码的信息。

另外使用[Mask] token掩盖要预测的值这种做法在实现上相对方便，只需要对输入数据进行处理即可，而不需要修改modeling的内容，更加通用。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。