- 博客(1)
- 收藏
- 关注
原创 MOE的负载均衡实践
MOE的负载均衡包含两部分:TOKEN选择专家的均衡以及每个专家处理样本的均衡4。代表变异系数,是方差与均值的比值,其值趋近于0,代表方差越小,专家越均衡。那么选择专家均衡的公式就是专家重要性的正则。是超参数,代表该部分Loss计算的比重。
2025-09-11 00:25:18
256
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅