强化学习中的状态与智能体深度解析
1. 连续动作智能体的状态增强
在某些情况下,已有的信息足以训练离散动作智能体,即便存在一定的“搜索”情况也可接受。但对于连续动作智能体,或者当目标是最小化“搜索”时,可能需要更多关于角速度的信息。在多数情况下,系统可能没有直接输入角速度的途径。不过我们可以让智能体自行学习数学和物理知识,采用一种简单的表示方式,使智能体能够学习这些细节。
以平衡杆问题为例,包含角速度信息的最简单表示可以是当前时间步之前一个单位时间(如毫秒)杆的位置(以角度表示)。若这个单位时间也是我们允许智能体做出反应的时间间隔,那么这个额外输入实际上就是之前的状态。之前的例子中,我们作为输入的唯一状态就是上一个时间步杆的角位置。所以,我们将包含角速度(除角位置外)以及其他相关复杂性的问题简化为,向连续动作智能体(而非离散动作智能体)发送两个连续的状态(而非仅仅当前状态/角位置)进行训练。
通过这个例子我们发现,为了使事情既简单又有效,我们可以使用一些更容易捕捉的现实世界表示方式,为强化学习智能体构建状态。智能体借助合适的模型/算法和足够的训练实验,能够更好地学习复杂的交互机制,间接掌握影响结果的物理规律。在这种情况下,状态可能并非实时观测的直接转换,而是需要一些技巧来简化问题并保证有效性,这种方法也会对智能体的准确性和效率产生重大影响。
2. 助力马里奥营救公主
2.1 视觉相关强化学习问题简介
此前讨论的例子中,数据都是结构化的(数值型),要么直接获取,要么通过数字传感器感知。但如果要让强化学习智能体承担人类的工作,它必须能够处理人类所能接收的各种输入形式。人类获取数据的一个重要且复杂的来源是视觉。以自动驾
超级会员免费看
订阅专栏 解锁全文
1134

被折叠的 条评论
为什么被折叠?



