REINFORCE和A2C的异同

两者的神经网络结构一模一样,都是分为两个网络,即策略神经网络和价值神经网络。但是两者的区别在于价值神经网络的作用不同,A2C中的可以评价当前状态的好坏,而REINFORCE中的只是作为一个Baseline而已,唯一作用就是降低随机梯度造成的方差。

A2C算法的改进:

用multi-step TD target来改进A2C算法,因为之前计算TD target只用到一个奖励,所以是one step TD target。用multi-step TD target就是指计算TD target时里面包含多个奖励。

 

multi-step TD target就是观测m个transition,然后来计算TD targrt,最后得到修改后的算法:

 REINFORCE with Baseline:

步骤:

1.完成一次训练,观测到一条轨迹,包括所有的状态,动作,以及奖励。

2.然后用观测到的奖励来计算回报,是从t时刻开始,所有奖励的加权和,是完全真实观测到的,和TD target是不一样的。

3.计算error,是价值网络的预测值与的差,不是TD error,但是和TD error很像。

4.用策略梯度来更新策略网络。

5.做梯度下降来更新价值网络。

区别:

经过比较A2C和REINFORCE with Baseline的主要区别就是这两步:

 

 

 

 

对于人工智能来说,棋类由于其巨大的复杂度一直是最具有挑战的游戏。围棋自从被创造出来,已经有数千年的历史了,在19路围棋中,即棋盘是由19*19个纵横交叉点组成的,每个交叉点都有黑白空三种不同的状态,则博弈树的复杂度在10的300次方左右,其天文数字远远的超过了宇宙中原子的个数。在象棋与国际象棋被计算机用穷举加上搜索的方法战胜了世界上顶级的棋手后,围棋成为了人工智能最想要征服的游戏。但是,传统的计算机围棋程序面对职业围棋棋手时仍然被让3到4子,在2015年国际学术界普遍认为解决围棋问题至少需要10年到20年的时间。但是,2016年3月,DeepMind团队的人工智能程序AlphaGo以4比1的成绩战胜了韩国棋手世界围棋冠军李世乭九段,引起了围棋界以及人工智能界的广泛关注,这对于计算机围棋来说具有跨时代的意义,AlphaGo所使用的深度学习技术也成为人们关注讨论的热点。AlphaGo围棋程序程序通过决策与评估两个大脑的组合进行围棋的对弈,策略大脑对当前盘面进行下一步棋的选择,评估大脑对当前的盘面进行大局观的评价。本文主要研究AlphaGo的价值神经网络的设计与实现,通过从围棋数据集的制作,到价值神经网络模型的复现,从网络训练过程中的算法优化,到实现一个36层深度残差价值神经网络,最后进行大规模分布式的神经网络的训练,并训练出更为精确的价值神经网络。本文研究的目的在于设计出一个更为精确的价值神经网络,该网络可以准确的预测出当前盘面的黑子与白子的胜率,具有很好的大局观,从而可以提升计算机围棋的水平,同时价值神经网络的工作模式可以应用解决生活中的估值问题。本文相较于AlphaGo的价值神经网络在数据集制作,网络模型的构建大规模分布式训练方面都有较大的改进,从而提升了估值的准确性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值