一. 第四范式(经济决策)
- 是否学过python,自学还是?
- python相关:如python的数据格式,字典和列表的区别,如何合并字典,深拷贝浅拷贝的区别
- 项目相关:reward是怎么设置的
- 考了道二分的题。让用python写。
二. 毫末智行(自动驾驶决策岗)
- 自我介绍
- 博弈和强化你是怎么结合的?局部最优你是怎么处理的?
- 说说你最熟悉的几个强化框架?DQN和DDPG的区别?on-policy和off-policy的区别?A2C,A3C,异步和同步有哪些区别。
- 除了博弈和强化你还了解哪些有关控制、规划、视觉的算法
- Dijstra和A* 的区别,A* 的启发式是什么
- 手写快排
三.启元世界(强化学习)
- 现在研究生几年级,你现在的研究方向?
- 介绍项目。问的很细,一点一点问。
- DDPG改进到D4PG你是怎么做的,ddpg和dqn有什么区别和优势,D4PG的四个D分别是什么?
- value-based和policy gradient有什么区别,为什么pg不是单步更新。
- dqn过估计的原因。
- mcts四步是哪四步。
- 手写softmax。
四. 毫末二面
1.自我介绍
研究方向、科研项目、无人驾驶项目
2.机器博弈项目的背景?战场双方对兵力等评估,
博弈输出的动作是什么?输出的是价值不是强化学习过程
action是什么?通过网络对态势评估,给到CFR计算得到遗憾值进行更新策略
这些步骤在战场博弈下对应的是什么?用德扑模拟这个过程
最后怎么求解的?怎么把德扑模型构建的?
DeepStack是什么意思?模型的输

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



