深度强化学习入门:概念、应用与学习范式
1. 深度强化学习的应用领域
在许多情况下,我们都需要做出一系列决策,而错误的决策可能会带来高昂的代价。算法研究在序列决策方面主要聚焦于两个应用领域:机器人问题和游戏。
1.1 机器人领域
理论上,程序员可以一步一步地对机器人的所有动作进行详细的预编程。在高度可控的环境中,比如汽车工厂里的焊接机器人,这种方法或许可行,但任何微小的变化或新任务都需要对机器人进行重新编程。
手动为机器人编程以执行复杂任务是非常困难的。人类往往没有意识到自己的操作知识,例如拿起杯子时我们给哪些肌肉施加了多大的“电压”。相比之下,定义一个期望的目标状态,让系统自行找到复杂的解决方案要容易得多。此外,在稍有挑战性的环境中,当机器人需要更灵活地应对不同条件时,就需要一个自适应程序。
机器人领域是机器学习研究的重要驱动力,机器人研究人员很早就开始寻找让机器人自学特定行为的方法。相关的实验文献丰富多样,机器人可以自学如何在迷宫中导航、执行操作任务以及学习运动任务。
自适应机器人研究已经取得了一些进展。例如,最近的成果包括机器人翻转煎饼和操控特技模型直升机飞行。通常,学习任务会与计算机视觉相结合,机器人需要通过视觉解释自己行动的后果来进行学习。
1.2 游戏领域
游戏一直被用于研究智能行为的各个方面。早在计算机有足够能力运行国际象棋程序之前,香农和图灵时代就已经进行了相关的纸质设计,希望通过理解国际象棋来了解智能的本质。
游戏使研究人员能够限制研究范围,专注于有限环境中的智能决策,而无需掌握现实世界的全部复杂性。除了像国际象棋和围棋这样的棋盘游戏,
超级会员免费看
订阅专栏 解锁全文
904

被折叠的 条评论
为什么被折叠?



