复习_强化学习

本文探讨了强化学习中基于值函数逼近和确定性策略搜索的方法,如DQN、DoubleDQN、DuelingDQN及DDPG算法,并讨论了深度学习在推荐系统中的挑战,特别是在构造状态、动作及回报函数方面。
部署运行你感兴趣的模型镜像

强化学习常用的方法有基于值函数逼近的强化学习基于确定性策略搜索的强化学习

基于值函数逼近的强化学习主要解决状态空间很大或者连续情况下的强化学习问题;包括DQN,double DQN,dueling DQN等;

DQN:Human-level control through deep reinforcement learning

 Double DQN:Deep Reinforcement Learning with Double Q-learning

Dueling DQN:Dueling Network Architectures for Deep Reinforcement Learning

 

基于确定性策略搜索的强化学习主要解决动作空间或者状态-动作空间比较大或者连续情况下的强化学习问题;对应的算法是DDPG;

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 

 

深度学习在推荐系统的应用的难点在于状态S和动作a以及回报函数的构造

DRN: A Deep Reinforcement Learning Framework for News Recommendation

 

 

 

 

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值