52、机器学习中的信用分配与跨语言文本挖掘

Mars5

于 2025-09-23 13:29:25 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘精要文章标签：信用分配结构信用分配时间信用分配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154600977

机器学习与数据挖掘精要专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的信用分配与跨语言文本挖掘

1. 信用分配

1.1 结构信用分配

在早期的 BOXES 算法中，每个区域或盒子都关联了向左推和向右推的动作。学习算法会为每个动作维护一个分数，并根据该分数选择下一个动作。这是一种将输入映射到输出的内部表示方式。然而，这种方法的问题在于决策系统的结构在一开始就固定了，学习者无法改变这种表示。如果所选的细分区域与实际的决策边界不对应，就可能需要改变表示。

为了解决这个问题，可以使用函数逼近器来替代固定的查找表。不同的函数逼近技术包括：
- Moore 的最近邻算法（1990），使用 kd - 树提高效率。
- Albus 的 CMAC 算法（1975）。
- 局部加权回归（Atkeson 等人，1997）。
- 感知器（Rosenblatt，1962）。
- 多层网络（Hinton 等人，1985）。
- 径向基函数等。

结构信用分配还可以通过创建分层表示来解决，其他方法包括值函数逼近和自动基生成。

1.2 时间信用分配

在极点平衡的例子中，当极点倒下时，学习系统会收到一个信号。但它如何知道导致失败的哪些动作促成了倒下呢？在失败时系统会受到高级惩罚，在有目标要实现的任务中会得到奖励。通常会将最大的功劳或责任分配给最近的动作，而对之前的动作分配的功劳或责任逐渐减少。每次重复学习试验时，动作的值会更新，如果一个动作导致了更高值的另一个动作，其权重会增加，奖励或惩罚会在系统做出的决策序列中反向传播。

时间信用分配不仅出现在强化学习中，也出现在其他学习形式中，如模仿学习、行为克隆、计划学习和基于解释的学习。以 Mitch

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。