10、策略梯度强化学习:原理与实践

策略梯度强化学习:原理与实践

1. 策略梯度学习简介

在游戏中,我们希望通过经验数据提升智能体的表现,使其更常获胜。之前的智能体使用神经网络选择移动,若随机改变网络中的权重,智能体将选择不同的移动,结果可能变好或变差,具有随机性。而策略梯度学习提供了一种估计权重调整方向的方法,以提升智能体的任务能力。

策略学习方法的工作原理如下:
1. 当智能体获胜时,增加其选择的每个移动的概率。
2. 当智能体失败时,降低其选择的每个移动的概率。

2. 简单游戏示例:Add It Up

为了引入策略学习,我们从一个比围棋简单得多的游戏“Add It Up”开始。游戏规则如下:
- 每一轮,每个玩家选择一个1到5之间的数字。
- 100轮后,每个玩家将他们选择的所有数字相加。
- 总和较高的玩家获胜。

这个游戏的最优策略是每轮都选择5。我们从一个纯随机策略开始,即每个选项被选中的概率相等(均匀随机)。以下是模拟这种随机选择的Python代码:

import numpy as np
counts = {1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
for i in range(100):
    choice = np.random.choice([1, 2, 3, 4, 5],
                              p=[0.2, 0.2, 0.2, 0.2, 0.2])
    counts[choice] += 1
print(counts)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值