52、机器学习中的信用分配与跨语言文本挖掘

机器学习中的信用分配与跨语言文本挖掘

1. 信用分配

1.1 结构信用分配

在早期的 BOXES 算法中,每个区域或盒子都关联了向左推和向右推的动作。学习算法会为每个动作维护一个分数,并根据该分数选择下一个动作。这是一种将输入映射到输出的内部表示方式。然而,这种方法的问题在于决策系统的结构在一开始就固定了,学习者无法改变这种表示。如果所选的细分区域与实际的决策边界不对应,就可能需要改变表示。

为了解决这个问题,可以使用函数逼近器来替代固定的查找表。不同的函数逼近技术包括:
- Moore 的最近邻算法(1990),使用 kd - 树提高效率。
- Albus 的 CMAC 算法(1975)。
- 局部加权回归(Atkeson 等人,1997)。
- 感知器(Rosenblatt,1962)。
- 多层网络(Hinton 等人,1985)。
- 径向基函数等。

结构信用分配还可以通过创建分层表示来解决,其他方法包括值函数逼近和自动基生成。

1.2 时间信用分配

在极点平衡的例子中,当极点倒下时,学习系统会收到一个信号。但它如何知道导致失败的哪些动作促成了倒下呢?在失败时系统会受到高级惩罚,在有目标要实现的任务中会得到奖励。通常会将最大的功劳或责任分配给最近的动作,而对之前的动作分配的功劳或责任逐渐减少。每次重复学习试验时,动作的值会更新,如果一个动作导致了更高值的另一个动作,其权重会增加,奖励或惩罚会在系统做出的决策序列中反向传播。

时间信用分配不仅出现在强化学习中,也出现在其他学习形式中,如模仿学习、行为克隆、计划学习和基于解释的学习。以 Mitch

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值