【RL_Notes】chapter01 井字棋(tic_tac_toe)
前言:此份笔记是笔者在学习 reinforcement learning: an introduction 学习过程中所制。1.模型训练def train(epochs, print_every_n=500)epoches表示训练的回合数,print_every_n 默认值为500,表示每500回合打印一次。1.1 核心思想在这个函数中,核心思想是:将两个棋手都当成两个AI玩家(采取的...
原创
2020-01-12 16:58:29 ·
612 阅读 ·
0 评论