2021春实习系列------西山居游戏

最新推荐文章于 2025-11-24 15:19:25 发布

原创最新推荐文章于 2025-11-24 15:19:25 发布 · 458 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#面试 #算法 #强化学习

春实习专栏收录该内容

2 篇文章

订阅专栏

本文作者分享了自己在2021年3月强化学习岗位的面试经历，重点讨论了A2C和A3C算法的区别、经验回访的作用、RL与DL目标函数的差异、多臂老虎机问题、DDPG和PPO算法，并给出了在CS游戏中应用强化学习的思考，同时探讨了解决稀疏奖励问题的方法。此外，还提及了模型保存与Tensorflow、Pytorch的相关知识。

2021年3月多投了一些公司的实习，想增加一下自己的能力，下面整理一下当时的面试，希望给后面的人一些帮助。

本人本科学的控制，研究所主要方向是强化学习，所以主要是投递强化学习方向的岗位。

强化学习中主要在工业界的应用就说游戏，游戏AI的训练就投递了

西山居游戏「【校招】强化学习算法工程师」

下面是面试当时的问题不完全整理：

自我介绍
介绍AC算法
A2C, A3C做了哪些升级

A2C全称为优势动作评论算法(Advantage Actor Critic)；

A2C使用优势函数代替Critic网络中的原始回报，可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C全称为异步优势动作评价算法（Asynchronous advantage actor-critic
这里有个连接，写的很好，重要的博客关于AC算法的
A3C是on-policy还是off-policy算法的？二者有什么区别吗？
经验回访是怎么回事？为啥需要经验回访？
AC的优点在哪？缺点是？直接Actor的输出作为策略输出，有什么问题吗？
网上百度的：
缺点：（1）Actor的行为取决于 Critic 的Value，但是因为 Critic本身就很难收敛，和actor一起更新的话就更难收敛了。

（2）Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西
RL和DL的目标函数有什么区别吗？
个人见解：首先，RL的目标函数和DL的差距不是很大，因为DRL计算就是依托于DL来执行的，但是RL的目标函数是为了获取最优的策略所设置的，组成元素必然含有和策略相关的参数，而这些元素有些是通过分析智能体与环境交互的数据得到而不是提前设定好的，不像DL的目标函数有一部分是带‘标签’的数据提供的。
多臂老虎机问题
1. 多臂老虎机其实代表了RL学习中一个重要的问题：探索和利用的平衡问题
DDPG算法，分别介绍DDPG四个网络？
PPO算法？DDPG和PPO算法的联系是什么？
1. PPO和DDPG都基于AC框架的RL算法
  
  尽管PPO的算法学习效率比较高，但PPO算法所使用的策略还是随机策略。随机策略本身就存在一些难以逾越的问题，比如动作空间维数很大时，利用随机策略就需要采集很多样本才能对该策略进行评估。对于像机器人等动作空间维数很高的系统，随机策略并不是一个很好的选择。Silver等提出利用确定性策略代替随机策略
  
  DDPG也是解决连续控制型问题的的一个算法，不过和PPO不一样，PPO输出的是一个策略，也就是一个概率分布，而DDPG输出的直接是一个动作。
场景题 CS游戏？训练CS中玩家，定义action，state，reward如何设置？
1. 当时举了一个类似于CS的游戏
如何解决稀疏奖励问题？