机器学习中的信用分配与跨语言文本挖掘
1. 信用分配
1.1 结构信用分配
在早期的 BOXES 算法中,每个区域或盒子都关联了向左推和向右推的动作。学习算法会为每个动作维护一个分数,并根据该分数选择下一个动作。这是一种将输入映射到输出的内部表示方式。然而,这种方法的问题在于决策系统的结构在一开始就固定了,学习者无法改变这种表示。如果所选的细分区域与实际的决策边界不对应,就可能需要改变表示。
为了解决这个问题,可以使用函数逼近器来替代固定的查找表。不同的函数逼近技术包括:
- Moore 的最近邻算法(1990),使用 kd - 树提高效率。
- Albus 的 CMAC 算法(1975)。
- 局部加权回归(Atkeson 等人,1997)。
- 感知器(Rosenblatt,1962)。
- 多层网络(Hinton 等人,1985)。
- 径向基函数等。
结构信用分配还可以通过创建分层表示来解决,其他方法包括值函数逼近和自动基生成。
1.2 时间信用分配
在极点平衡的例子中,当极点倒下时,学习系统会收到一个信号。但它如何知道导致失败的哪些动作促成了倒下呢?在失败时系统会受到高级惩罚,在有目标要实现的任务中会得到奖励。通常会将最大的功劳或责任分配给最近的动作,而对之前的动作分配的功劳或责任逐渐减少。每次重复学习试验时,动作的值会更新,如果一个动作导致了更高值的另一个动作,其权重会增加,奖励或惩罚会在系统做出的决策序列中反向传播。
时间信用分配不仅出现在强化学习中,也出现在其他学习形式中,如模仿学习、行为克隆、计划学习和基于解释的学习。以 Mitch
超级会员免费看
订阅专栏 解锁全文

5053

被折叠的 条评论
为什么被折叠?



