强化学习入门:概念、方法与实践
1. 强化学习概述
强化学习是机器学习的一个子类。强化学习算法通过在特定环境中最大化奖励来进行学习,当问题涉及决策或行动时,这些算法非常有用。原则上,强化学习算法可以采用任何统计学习模型,但使用深度神经网络变得越来越流行且有效。
以谷歌DeepMind的AlphaGo为例,它将古老的中国围棋游戏作为测试平台。在与职业围棋选手李世石的五局对弈中,李世石仅赢了一局。这一事件成为强化学习的一个转折点,因为长期以来,围棋被认为不像国际象棋那样容易受到算法推理的影响。
1.1 强化学习的基本概念
- 智能体(Agent) :是任何强化学习问题的核心,它处理输入以确定采取何种行动。在很多情况下,智能体由深度神经网络实现。
- 环境(Environment) :是智能体运行的潜在动态条件,更广泛地说,环境是为智能体生成输入数据的任何过程。例如,在飞行模拟器中驾驶飞机的智能体,模拟器就是环境。
- 状态(State) :是智能体可以访问并用于决策的环境快照。环境通常是一组不断变化的条件,但我们可以对环境进行采样,这些特定时间的样本就是我们提供给智能体的环境状态信息。
- 行动(Action) :是智能体做出的决策,会导致环境发生变化。比如移动一个特定的棋子,或者在汽车中踩下油门踏板。
- 奖励(Reward) :是智能体采取行动后,环境给予的正或负信号。奖励是智能体
超级会员免费看
订阅专栏 解锁全文
903

被折叠的 条评论
为什么被折叠?



