强化学习和有监督学习的优化途径是不同的
归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互过程中,采样到一个具体的状态动作对(state-action pair)的概率分布。
占用度量有一个很重要的性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。也就是说,如果一个智能体的策略有所改变,那么它和环境交互得到的占用度量也会相应改变。
强化学习本质的思维方式。
强化学习的策略在训练中会不断更新,其对应的数据分布(即占用度量)也会相应地改变。因此,强化学习的一大难点就在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应的奖励的期望,因此寻找最优策略对应着寻找最优占用度量。
主流的 MoE 模型大多基于 Google 于 2020 年提出的混合同构专家模型 Gshard。但 MoE 结构里的专家设计上长期未能取得显著进展。MoE 模型面临以下三大挑战:
专家专业化程度不足,导致路由随机分发 token,专家在训练中趋同
参数分配不够高效,简单输入消耗过多计算资源,而复杂输入得不到充分处理
表示坍缩和负载不均衡问题,限制了模型的表达能力和计算效率。
参考文献:
https://zhuanlan.zhihu.com/p/19991594176
-1
1191

被折叠的 条评论
为什么被折叠?



