强化学习（十一）探索与利用

原创已于 2025-10-17 15:57:44 修改 · 751 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #算法

于 2025-05-26 14:33:27 首次发布

强化学习专栏收录该内容

27 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

知乎号：李歪理，欢迎大家关注

本篇系统的介绍在强化学习领域如何有效的进行探索，给出了几类探索算法，通过引入后悔值，借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性，随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。

1. 简介 Introduction

探索和利用的困局：

利用是做出当前信息下的最佳决定，
探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。

因此探索和利用是一对矛盾。

几个基本的探索方法：

朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；

几个基本的探索方法：

朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；

乐观初始估计(Optimistic Initialization): 优先选择当前被认为是最高价值的行为，除非新信息的获取推翻了该行为具有最高价值这一认知；

概率匹配（Probability Matching): 根据当前估计的概率分布采样行为；

信息状态搜索(Information State Search): 将已探索的信息作为状态的一部分联合个体的状态组成新的状态，以新

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

comli_cn 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。