探索与利用
本文未经许可,禁止转载,如需转载请联系笔者
0. 引言
在强化学习问题中,探索和利用是一对矛盾: 探索 尝试不同的行为继而收集更多的信息,利用 则是做出当前信息下的最佳决定。
探索可能会牺牲一些短期利益,通过搜集更多信息而获得较为长期准确的利益估计;利用则侧重于对根据已掌握的信息而做到短期利益最大化。探索不能无止境地进行,否则就牺牲了太多的短期利益进而导致整体利益受损;同时也不能太看重短期利益而忽视一些未探索的可能会带来巨大利益的行为。因此如何平衡探索和利用是强化学习领域的一个课题。
根据探索过程中使用的数据结构,可以将 探索 分为: 依据状态行为空间的探索 (state-actionexploration)和 参数化搜索(parameter exploration)。前者 针对当前的每一个状态,以一定的算法 尝试 之前该状态下没有尝试过的 行为; 后者 直接针对参数化的策略函数,表现为 尝试 不同的 参数设置,进而得到具体的行为。
本章结合多臂