HuggingFaceDeepRLCourse(v2.0)
文章平均质量分 95
HuggingFace出的强化学习教程
great-wind
好记性不如烂笔头
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第2单元 Q-Learning
本单元我们将深入探讨强化学习中的基于价值的方法Q 学习算法。Frozen-Lake-v1(防滑版本):智能体需要从起始状态(S)移动到目标状态(G),且只能行走于冻结砖块(F)并避开冰窟(H)。一辆自动驾驶出租车:我们的智能体需要学会在城市中导航 ,以将乘客从 A 点运送至 B 点。在强化学习中,我们构建了一个能够做出智能决策的智能体。例如,一个学会玩电子游戏的智能体,或是一个通过决定购买哪些股票以及何时卖出来实现收益最大化的交易智能体。为了做出智能决策,我们的智能体将通过试错方式与环境互动。翻译 2025-09-25 21:45:59 · 78 阅读 · 0 评论 -
第1单元-深度强化学习入门
要理解强化学习,让我们先从宏观视角入手。我们现在可以给出一个正式定义:强化学习是一种通过构建智能体来解决控制任务(也称为决策问题)的框架,该智能体通过与环境互动进行试错学习,并以获得奖励(正向或负向)作为唯一反馈来从环境中学习。但强化学习是如何运作的呢?强化学习是一种通过行为进行学习的计算方法。我们构建一个智能体,它通过试错与环境互动,并以奖励(正向或负向)作为反馈来从环境中学习。任何强化学习智能体的目标都是最大化其预期累积奖励(也称为预期回报),因为强化学习基于奖励假说— 即。翻译 2025-06-10 21:32:15 · 72 阅读 · 0 评论
分享