强化学习:从基础到工业应用
1. 强化学习简介
强化学习(RL)是一种机器学习范式,能够优化顺序决策。它模仿人类的学习方式,通过与环境交互来学习策略,就像人类学习骑自行车或参加数学考试一样。
与传统机器学习算法不同,RL 可以学习长期策略,适用于解决复杂的工业问题。例如,企业在决策时,短期最优决策可能并非长期最优。就像吃一整桶冰淇淋短期内会让人开心,但下周可能需要更多运动;点击诱饵式的推荐可能短期内点击率高,但长期来看会损害用户参与度和留存率。而 RL 可以使用与业务直接相关的目标,如利润、用户数量和留存率,而不仅仅是技术评估指标。
2. 写作目标与受众
写作的目标是推广 RL 在工业生产系统中的应用。因为之前关于 RL 的例子大多来自学术研究,很少有从工业角度出发或介绍如何在生产环境中使用 RL 的内容。所以希望这本书能激发和鼓励在工业环境中使用 RL。
适合阅读这本书的人群包括正在或未来打算构建 RL 产品的研究人员、开发人员和运营人员,更侧重于工业领域而非学术界。
3. 指导原则与风格
3.1 避免代码列表
不直接在书中列出代码,而是将代码放在配套的网站(https://rl-book.com )上。原因包括:书籍并非展示代码的合适场所;很多实现复杂,代码中的优化细节会分散对核心思想的理解;部分算法太新或复杂,尚未有标准库实现。这样可以为更多的见解、解释和有趣的内容留出空间。
3.2 数学处理
RL 是一个高度数学化的主题,在解释基本算法时会使用数学,但会尽量简化,并在必要时提供详细解释。一般遵循 Thomas 和 Ok
超级会员免费看
订阅专栏 解锁全文
1296

被折叠的 条评论
为什么被折叠?



