人工智能之强化学习基础

原创已于 2024-02-21 06:42:55 修改 · 720 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习

于 2024-02-06 18:07:57 首次发布

强化学习入门

人工智能参考书理论将机器人对环境的观测O与状态S等同。

模型：机器与环境交互改变状态的规律。
$P^a_{ss'}=P(S_{t+1}=s'|S_t=s,A_t=a)\\ R^a_s = E[R_{t+1}|S_t=s,A_t=a]$

$Pss′aP^a_{ss'}$ 是一个概率分布，可用表格描述。

策略：机器所有可能做出的动作。
$a=\pi(s|\theta)$

另一种表达，
$\pi(a|s)=P[A_t=a|S_t=s]$

在一时间片的状态(state) $S_t$ ，采取的行动(action) $A_t$ ，获取的奖励为(reward) $R_t$ ；

如何求得好的策略

直接法：求奖励或收益的期望并选择最大化。求不同策略在未来不同时间片下总收益的期望。
$E[R(\pi(a|s)|s)]=\sum_{i=1}^N R(a|s_i)\pi(a|s_i)P(s_i)$

间接法：将策略在未来不同时间片的收益都贴现到当下，类似人的贴现心理，计算收益。
值函数
$v_{\pi}(s) = E_{\pi}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s]$

马尔科夫决策 Markov Decision Process

状态转移

类似运动方程

策略与评价
状态估值与动作估值
$v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)\\ q_{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}P_{ss'}^av_{\pi}(s')$

我认为有限条件下估计状态是有一定随机性的，如两个人或组织、国家谈判或博弈，是在猜测对方的状态和策略，观测输入不充分或过多、噪声影响、先验等等错误估计或误判，并非最优甚至负结果。如果能开放心态，求同存异，排除干扰，充分沟通，尽量减少偏见或误判，决策才能更好。

一个策略会在长期获得变化的正负奖励，可能下一时间段的奖励很大，而下下一段的奖励为负；因此决策应考虑一定长度的时间，多长才是合理的？

计算必须是有限的；Markov假设，另一方面，哲学问题，当下的决策似有非有影响未来，有的显著，有的潜在，有的基本没有。
参考Mobileye的Responsibility-Sensitive Safety模型中决策方法。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。