第一部分:深度强化学习(DRL)探索-利用平衡专题
一、基础概念题(20题)
-
【概念题】什么是探索-利用平衡(Exploration-Exploitation Trade-off)?
答:在强化学习中,探索指智能体尝试未知动作以发现潜在高奖励策略,利用指选择已知最优动作最大化即时奖励。平衡两者以在长期累积奖励中取得最优,是RL核心问题之一。 -
【热门题】探索-利用平衡为何在DRL中更为复杂?
答:DRL结合深度学习,状态/动作空间高维连续,策略参数化导致探索行为依赖网络输出;且函数近似误差可能放大探索偏差,需设计与神经网络兼容的探索策略。 -
【概念题】列举三种常见探索策略。
答:ε-greedy、上置信界(UCB)、玻尔兹曼探索(Boltzmann Exploration)。