《强化学习》-读书笔记-第一章 导论

本文介绍了强化学习的基本概念,包括其试错和延迟收益特性,以及策略、收益和价值函数等核心要素。讨论了强化学习与监督、无监督学习的区别,并通过井字棋实例展示学习过程。同时,探讨了强化学习的局限性和适用范围,强调其在策略问题上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 导论

  • 在交互中学习是几乎所有学习和智能理论的基本思想。
  • 本书研究在交互中学习的计算性方法,强化学习相比于其他机器学习方法,更加侧重于以交互目标为导向进行学习。

1.1 强化学习

  • 强化学习就是学习“做什么才能使得数值化的收益信号最大化
  • 强化学习最重要的两个特征:试错和延迟收益
  • 强化学习既不同于监督学习,又不同无监督学习,属于第三种机器学习范式
  • 强化学习需要在试探开发之间进行折中平衡
  • 强化学习从一个完整的、交互式的、目标导向的智能体出发,考虑了智能体和不确定环境交互的整个问题,而不是只考虑子问题

1.2 示例

  • 国际象棋大师走一步棋
  • 羚羊幼崽出生后几分钟挣扎着站起来
  • 菲尔准备早餐

1.3 强化学习要素

强化学习四要素:策略、收益、价值函数、环境模型

  • 策略:策略就是环境到动作的映射,是强化学习的核心。
  • 收益:就是每一步动作的回报,强化学习的目标是最大化长期总收益,是改变策略的主要基础。
  • 价值函数:智能体从当前时刻到未来的总收益的期望,价值评估是几乎所有强化学习方法中最重要的部分。
  • 环境模型:给定一个状态和动作,环境模型可以预测下一个状态和收益。强化学习由有模型的方法和无模型的方法。

收益 VS 价值

  • 收益表明短时间内什么是好的
  • 价值表明长远角度来看什么是好的

1.4 局限性和适用范围

  • 本书专注于策略问题,不处理构建、改变或学习状态信号的问题
  • 遗传算法、遗传规划、模拟退火算法以及其他一些算法可以称为进化算法,不显示地计算价值函数,寻找环境不变情况下的最优策略,不与环境进行交互;在智能体不能精确感知环境状态的问题上具有优势
  • 强化学习是与环境互动中学习的一类方法,在很多情况下,考虑个体交互动作的诸多细节的学习方法,会比进化方法更高效

1.5 扩展实例:井字棋

1.6 本章小结

1.7 强化学习的早期历史

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值