策略梯度强化学习:从基础到实践
1. 策略梯度学习简介
在游戏AI的训练中,之前我们已经了解到让程序自我对弈并保存经验数据,但这只是强化学习的第一步。接下来需要利用这些经验数据来提升智能体的表现,使其更常获胜。
传统的随机调整神经网络权重的方法效果不佳,因为调整方向是随机的,智能体的表现提升或下降全凭运气。而策略梯度学习则提供了一种更有效的方案,它可以估计权重调整的方向,从而让智能体在任务中表现得更好。
策略学习的基本方法如下:
1. 当智能体获胜时,增加它所选择的每一步行动的概率。
2. 当智能体失败时,降低它所选择的每一步行动的概率。
2. 简单游戏示例:Add It Up
为了更好地理解策略学习,我们以一个简单的游戏“Add It Up”为例。游戏规则如下:
- 每一轮,每个玩家选择一个1到5之间的数字。
- 100轮后,每个玩家将所选数字相加。
- 总和较高的玩家获胜。
显然,最优策略是每轮都选5。这个简单的游戏可以帮助我们理解策略学习如何逐渐改进随机策略,以达到完美的游戏表现。
2.1 随机策略模拟
我们先从一个完全随机的策略开始,即每个选项被选中的概率相等(均匀随机策略)。以下是模拟该策略在游戏中选择的Python代码:
import numpy as np
counts = {1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
for i in range(100):
choice = np.random.choi
超级会员免费看
订阅专栏 解锁全文

702

被折叠的 条评论
为什么被折叠?



