在连接主义学习中,把算法分为三种类型,即非监督(unsupervised learning)、监督学习(supervised leaning)和强化学(reinforcement learning)。
概念:
强化学习通过 “采取动作 — 得分反馈” 的方式学习,最终目标是使得Agent通过与环境的交互获得最大的得分。强化学习不是告诉Agent如何动作,而是Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
以下也是没经过深入理解,只能贴几个词汇,留坑待日后在学了......
马尔可夫决策过程(Markov Decision Processes):
Value function and Q-value function、Bellman equation、Q-learning、Q-network、Deep Q-Learning、Policy Gradients
应用:
Recurrent Attention Model (RAM)、AlphaGo