实践学习:强化学习入门
在学习围棋时,即便阅读了大量专业棋手撰写的书籍,我们可能仍只是中级业余水平。这是因为成为顶尖棋手,实践至关重要,大量的对局才能积累难以言传的知识。计算机也能通过实践学习,这就是强化学习的魅力所在。
1. 强化学习循环
强化学习是通过让程序反复尝试任务来改进程序的方法。当程序取得好结果时,修改程序以重复这些决策;取得坏结果时,则避免这些决策。这一过程通过特定的算法自动完成,无需每次都编写新代码。
强化学习的循环主要包括以下步骤:
1. 收集经验 :让Go机器人进行多局自对弈,记录每一步和最终结果,这些记录就是经验数据。
2. 训练 :根据自对弈中的表现更新机器人的行为,目标是让它重复获胜游戏中的决策,避免失败游戏中的决策。
3. 评估 :通过让机器人进行更多对局来评估其进展,可以与之前的版本对战,也可以与其他AI或人类玩家对战。
这个循环可以无限重复,我们可以将其拆分为多个脚本实现。在这个过程中,Go机器人被称为“智能体”,其目标是尽可能有效地完成任务,比如在围棋中获胜。
graph LR
A[收集经验] --> B[训练]
B --> C[评估]
C --> A
2. 经验的构成
在强化学习中,经验数据包含状态、动作和奖励三个部分。在游戏场景中,我们可以将经验划分为多个独立的游戏,即“回合”。每个回合有明确的结
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



