常见的强化学习面试题及解答(持续更新中ing)

声明 : 主要来源于博客强化学习及深度强化学习面试题,由于后期需要持续更新,因此写成原创博客。

1. 什么是强化学习?

  强化学习由环境、动作和奖励组成,强化学习的目标是使得作出的一系列决策得到的总的奖励的期望最大化。

2. 请你讲一下,HMM隐马尔可夫模型的参数估计方法是什么?

学习算法:

  • 若训练数据包括观测序列和状态序列,则HMM的学习非常简单,是监督学习;
  • 若训练数据只有观测序列,则HMM的学习需要使用EM算法,是非监督学习。

大数定理:

   假定已给定训练数据包含S个长度相同的观测序列和对应的状态序列{(O1,I1), (O2,I2)…(OS,IS)},那么,可以直接利用伯努利大数定理的结论:频率的极限是概率,从而给出HMM的参数估计。

隐马尔可夫模型
计算语言学之隐马尔可夫模型

3. 强化学习和监督学习、无监督学习的区别是什么?

  监督学习带有标签;无监督学习没有标签;强化学习使用未标记的数据,根据延迟奖励学习策略。

4. 强化学习适合解决什么样子的问题?

  模型输出的动作必须要能够改变环境的状态,并且模型能够获得环境的反馈,同时状态应该是可重复到达的。

5. 强化学习的损失函数是什么?和深度学习的损失函数有何关系?

  强化学习的损失函数是使奖励和的期望最大;深度学习中的损失函数是使预测值和标签之间的差异最小化。

6. POMDP是什么?马尔科夫过程是什么?马尔科夫决策过程是什么?里面的“马尔科夫”体现了什么性质?

  POMDP是状态部分可观测的马尔可夫决策过程;马尔科夫过程是一个二元组 < S , P > <S,P> <S,P> S S S为状态集合, P P P为状态转移概率矩阵;马尔科夫决策过程是一个五元组 < S , P , A , R , γ > <S,P,A,R,γ> <S,P,A,R,γ> R R R表示为从 S S S S ′ S' S能够获得的奖励期望, γ γ γ为折扣因子, A A A 为动作集合;马尔可夫中下一个状态只与当前状态有关,而与历史状态无关,即 P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , S 2 , . . . , S t ] P[S_{t+1}∣S_t]=P[S_{t+1}∣S1,S2,...,St] P[St+1St]=P[St+1S1,S2,...,St]

7. 值迭代和策略迭代的区别?

  价值迭代采用了Bellman最优算子,策略迭代采用的是Bellman期望算子。价值迭代是策略迭代的一种特殊情况,是每进行一次策略评估就更新一次策略。

强化学习–值函数
Policy gradient 算法思想

8. 贝尔曼方程的具体数学表达式是什么

v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r ( s , a ) + γ v π ( s ′ ) ] \left.v_{\pi}(s)=\sum_{a} \pi(a | s\right) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r(s, a)+\gamma v_{\pi}\left(s^{\prime}\right)\right] v

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值