35、强化学习中的探索与奖励工程

强化学习中的探索与奖励工程

1. 推荐算法简化方案

在推荐系统中,一种更简单且稳健的解决方案是假设用户只能选择单一动作。这样一来,只需要对动作进行排名并选择前 k 个动作,而无需纠结于何种动作组合是最优的。这种方法已被证明能提高 YouTube 上的用户参与度。要知道,谷歌(拥有 YouTube)拥有世界上最顶尖的数据科学家团队,而这个算法能与他们经过多年精心调优的推荐模型相抗衡,着实令人惊叹。

2. 从儿童探索中获得的启示

儿童在很多方面能为我们带来个人和专业上的启发。比如在准备演示文稿或构建新的抽象概念时,如果无法用让孩子听起来连贯的方式解释清楚,这就提示我们需要进一步完善表达。《儿童图解 Kubernetes 指南》这本书就是这一理念的有趣例证。

儿童的探索方式也为强化学习(RL)中的探索问题提供了方向。大多数 RL 问题本质上都是探索问题,涉及复杂状态、大动作空间、收敛性和最优解等。而儿童在很小的时候就具备主动探索环境以获取知识的天赋,他们能进行简单实验、验证假设,还能整合多源信息构建丰富的世界心理模型,并将这些知识应用到新情境中。

相比之下,当前的 RL 算法主要由误差驱动,学习过程近乎随机。没有目标时,智能体就像一只恼人的苍蝇,在环境中乱撞,甚至无法飞出它进来的那扇敞开的窗户。儿童的探索方式类似深度优先搜索,他们会持续执行动作,直到遇到阻碍当前路径的状态,比如迷宫中的死胡同。令人惊奇的是,这种探索无需目标,意味着他们能从过往经验中迁移关于状态的知识。当给他们设定目标时,他们能利用探索形成的心理地图显著改善初始的目标搜索。而现有的 RL 算法通常只能靠偶然发现目标。

为了改善探索,尤其是在奖励稀疏的问题中,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值