RL笔记_Balance exploration and exploitation 几种简单方法

1,首先是pursuit方法,一直选择当前贪婪的action;

2,柯西-贪婪方法:以一定概率探索,随机选择非当前最优的action;

3,softmax :在以一定概率探索的基础上,根据当前的action_value estimates,利用Gibbs函数对剩余action做grade,对第二种方法随机选择非最优的一个改进;

4,interval estimation:以上方法是在action得到确定value的基础上,而此方法选择action是在对action的评估的置信区间上,比如value值为10~20,置信度95%。被选择的action的置信区间有最大的上边界,这就会鼓励探索不确定的action,并且最终有可能得到一个最优action。这样做的缺点是实际情况可能不满足统计学的一些假设,并且统计学的模型在实际中由于模型复杂度也很难被真正使用。

5,贝叶斯优化方法:假设我们已经知道问题的概率分布,我们可以计算每一个可能的reward的概率以及之后的action-values的后验概率分布。这样的模型在计算上非常复杂,概率树的数目非常庞大,即便只有两个action和两个reward,如果玩1000次,就会有2^1000的叶子,这里列出仅供讨论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值