强化学习:概念、应用与实现
1. 神经网络与自动编码器概述
在处理数据集时,若线性模型无法有效描述数据,神经网络就会发挥重要作用。自动编码器作为一种无监督学习算法,尝试重现其输入,从而揭示数据的有趣结构。对于图像数据,通过扁平化和灰度化处理,可以轻松将其作为输入提供给神经网络。
2. 强化学习的基本概念
人类从过往经验中学习,强化学习正是设计一种由批评和奖励驱动的机器学习系统。例如,在日常生活中,我们通过与他人互动了解什么能让人开心,通过尝试不同的肌肉动作学会骑自行车。当我们采取行动时,有时能立即获得奖励,如找到附近的好餐厅;有时奖励则不会马上出现,如长途跋涉找到一家特别的餐厅。
强化学习的核心是在任何状态下做出正确的行动,以获得最高的预期奖励。例如,一个人在交通和意外情况下导航到达目的地,就是强化学习的问题场景。
在强化学习中,存在探索与利用的困境。以开车上班为例,我们通常选择熟悉的路线,但有时会出于好奇尝试新路线,这就是探索与利用的权衡。探索意味着尝试新事物,而利用则是坚持已知的最佳路线,即利用现有知识。
在强化学习中,场景被称为状态,所有可能状态的集合称为状态空间。执行一个动作会导致状态改变,关键问题是找出能产生最高预期奖励的一系列动作。
强化学习既不属于监督学习,也不属于无监督学习。它的训练数据来自算法在探索和利用之间的决策,同时算法会从环境中获得反馈。只要在某个状态下执行动作能产生奖励,就可以使用强化学习来发现能最大化预期奖励的动作序列。
在强化学习中,算法常被拟人化为一个与环境交互的智能体。状态、动作和奖励之间存在着相互作用,如下图所示:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



