策略梯度强化学习:原理与实践
1. 策略梯度学习简介
在游戏中,我们希望通过经验数据提升智能体的表现,使其更常获胜。之前的智能体使用神经网络选择移动,若随机改变网络中的权重,智能体将选择不同的移动,结果可能变好或变差,具有随机性。而策略梯度学习提供了一种估计权重调整方向的方法,以提升智能体的任务能力。
策略学习方法的工作原理如下:
1. 当智能体获胜时,增加其选择的每个移动的概率。
2. 当智能体失败时,降低其选择的每个移动的概率。
2. 简单游戏示例:Add It Up
为了引入策略学习,我们从一个比围棋简单得多的游戏“Add It Up”开始。游戏规则如下:
- 每一轮,每个玩家选择一个1到5之间的数字。
- 100轮后,每个玩家将他们选择的所有数字相加。
- 总和较高的玩家获胜。
这个游戏的最优策略是每轮都选择5。我们从一个纯随机策略开始,即每个选项被选中的概率相等(均匀随机)。以下是模拟这种随机选择的Python代码:
import numpy as np
counts = {1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
for i in range(100):
choice = np.random.choice([1, 2, 3, 4, 5],
p=[0.2, 0.2, 0.2, 0.2, 0.2])
counts[choice] += 1
print(counts)
即
超级会员免费看
订阅专栏 解锁全文
1317

被折叠的 条评论
为什么被折叠?



