强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces

本文探讨了处理大规模离散动作空间的深度强化学习方法,通过将动作嵌入连续空间并利用近似最近邻算法实现次线性查找复杂度。结合价值函数和策略梯度的优势,提出了一种新算法,该算法在动作生成和精炼阶段有效地解决了动作空间的泛化和查找效率问题。实验包括离散化连续控制、多步规划和推荐系统,验证了方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大规模离散动作空间内的深度强化学习

摘要

处理这样的任务需要:1. 在动作集合上的泛化能力; 2. 次线性查找复杂度。
本文提出方法,利用先验知识将动作嵌入连续空间使其可以泛化;采用近似最近邻算法达到log⁡(n)\log (n)log(n)查找复杂度。

背景知识介绍

强化学习方法可分为两类:value-based policy, action-based policy.

  1. value-based policy, 基于值函数直接做出决策,如Q-learning,DQN等。优点是具有泛化性,可以用平滑函数提取action的特征,使得相似action具有相近的动作值,缺点是action的选取需要遍历整个动作空间。
  2. action-based policy, 策略由参数化的actor给出动作概率分布,如策略梯度,actor-critic等。避免了计算复杂度,但是无法对action进行泛化。

此外,以前对于大规模离散动作空间的处理,要么是将动作空间分解为

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值