DRL: deep reinforcement learning
DRL = DL (deep learning) + RL (reinforcement learning)
大多数情况下,reward既不为正,也不为负,为0,导致RL非常难训练。
Alpha Go是监督学习+增强学习。在一开始,学习按照人的棋谱下棋,然后学到一定程度,再自己跟自己下。
本文探讨了深度强化学习(DRL)的概念及其面临的挑战,特别是在奖励信号通常为零的情况下,使得学习过程变得困难。通过AlphaGo的例子说明了如何结合监督学习与增强学习来克服这些挑战。
DRL: deep reinforcement learning
DRL = DL (deep learning) + RL (reinforcement learning)
大多数情况下,reward既不为正,也不为负,为0,导致RL非常难训练。
Alpha Go是监督学习+增强学习。在一开始,学习按照人的棋谱下棋,然后学到一定程度,再自己跟自己下。

被折叠的 条评论
为什么被折叠?