无监督模型中的自适应评判器设计与应用
1. 控制机制与自适应评判器概述
在控制机制中,通常包含两个关键模块:一个是实际产生对被控对象(plant)控制输入(即动作)的模块,另一个是对动作模块的表现进行评判的评判模块。评判模块的任务是跟踪被控对象状态或输出的演变,并评估基于所观察到的状态或输出轨迹,实现全局目标(即控制目的)的可能性。在相关文献中,“效用”(utility)一词用于表示基于当前状态信息或从过去到现在一段时间内的状态序列,达到未来全局目标的可能性或期望度量。
自适应评判器的目的是将效用近似为当前状态或近期状态历史的函数。如果对应输入的效用的确切值已知,那么自适应评判器就可以简化为一个纯粹的函数逼近器,并且可以使用任何监督式函数逼近方案来实现它。然而,在实际应用中,效用函数往往是未知的,甚至可能不是唯一的。在这种情况下,学习或自适应过程中没有目标输出值可用,因此纯粹的监督式方案无法应用。无监督方案似乎是更好的选择,因为它们不假设目标输出的可用性,而是由方案设计背后的原理来决定其目标和功能。不过,评判器通常会收到某种反馈,例如全局目标已达成或控制过程明确失败的偶尔信息。以极点平衡问题为例,评判器会偶尔得知极点是否倒下(控制策略不可恢复地失败)或仍然直立。这种反馈并不为评判器提供明确的目标,而是一种强化信号,可进一步用于强化学习方案中的奖惩机制。因此,自适应评判器设计可以归类为强化学习方法,介于纯粹的监督式和纯粹的无监督方案之间。
上述讨论引出了信用分配任务,这是自适应评判器设计的另一个用途,也是实现其整体性能目标所必需的。在知道一系列(通常较长)状态或控制动作是否失败后,评判器必须确定如何将信用分配给各个状态或动作(或任何特定的子序列)。这是基于对序列整体的判断(评估)来确定序列
超级会员免费看
订阅专栏 解锁全文
3993

被折叠的 条评论
为什么被折叠?



