强化学习学习

知识

广义策略迭代

即策略评估和策略优化不断交互,从而推进

Q学习和SARSA的区别在于TD目标不同,Q学习是异策略,自己的动作选择是贪婪策略,目标选择是最大动作值策略。SARSA是同策略,自己的每一步动作选择是贪婪策略,目标选择的也是贪婪策略。

同策略和异策略之间的差异联系

同策略学习是用来学习用来做决定的策略,可以当作是“在工作中学习”。SARSA。

异策略学习的策略不是用来做决定的策略,可以当作是“从其他经验中学习”.Q-Learing

双Q学习

解决最大化偏差的一个途径是跟踪两个Q函数的估计值。这个双Q学习分为两个部分,一个部分是Q值更新的过程中,计算TD目标的时候用的Q值和得到这个Q值所采取的动作,在同一个时间步下,我们从两个Q函数中选择一个来决定动作,选择Q值最大的那个动作,然后用另外一个Q函数的这个动作的Q值作为这个动作的估计值去计算TD误差。一个是和环境交互的时候,我们选择哪一个动作,我们选择两个Q函数值的和最大的那个动作来和环境进行交互。

策略迭代和价值迭代的区别和联系

在策略迭代的过程中,策略评估使用的是状态价值函数,策略改进使用的是动作价值函数。

策略迭代比价值迭代多了一步,那为什么还要用策略迭代呢

子网掩码:

用来判断主机号和网络号的如一个IP地址是192.128.0.1同时他的子网掩码是255.255.255.0,则这个IP地址的前24位是网络号,后8位是主机号,这个网段下最多一共有2的八次方减2个主机。

默认网关:

局域网内的主机想要访问互联网上的主机必需要通过的设备,默认是路由器上面的LAN口的地址。

DNS:域名解析系统

网址和IP地址之间的映射

明天看这个https://zhuanlan.zhihu.com/p/341415854

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值