14、强化学习:概念、应用与实现

强化学习:概念、应用与实现

1. 神经网络与自动编码器概述

在处理数据集时,若线性模型无法有效描述数据,神经网络就会发挥重要作用。自动编码器作为一种无监督学习算法,尝试重现其输入,从而揭示数据的有趣结构。对于图像数据,通过扁平化和灰度化处理,可以轻松将其作为输入提供给神经网络。

2. 强化学习的基本概念

人类从过往经验中学习,强化学习正是设计一种由批评和奖励驱动的机器学习系统。例如,在日常生活中,我们通过与他人互动了解什么能让人开心,通过尝试不同的肌肉动作学会骑自行车。当我们采取行动时,有时能立即获得奖励,如找到附近的好餐厅;有时奖励则不会马上出现,如长途跋涉找到一家特别的餐厅。

强化学习的核心是在任何状态下做出正确的行动,以获得最高的预期奖励。例如,一个人在交通和意外情况下导航到达目的地,就是强化学习的问题场景。

在强化学习中,存在探索与利用的困境。以开车上班为例,我们通常选择熟悉的路线,但有时会出于好奇尝试新路线,这就是探索与利用的权衡。探索意味着尝试新事物,而利用则是坚持已知的最佳路线,即利用现有知识。

在强化学习中,场景被称为状态,所有可能状态的集合称为状态空间。执行一个动作会导致状态改变,关键问题是找出能产生最高预期奖励的一系列动作。

强化学习既不属于监督学习,也不属于无监督学习。它的训练数据来自算法在探索和利用之间的决策,同时算法会从环境中获得反馈。只要在某个状态下执行动作能产生奖励,就可以使用强化学习来发现能最大化预期奖励的动作序列。

在强化学习中,算法常被拟人化为一个与环境交互的智能体。状态、动作和奖励之间存在着相互作用,如下图所示:


                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值