大模型面试新体验：4家大厂offer，最新面经+真实感受分享！

本文链接：https://blog.youkuaiyun.com/2401_84204413/article/details/146942279

硕士阶段的方向是强化学习，毕业后加入大厂做强化学习在游戏中的应用，已经有两年多了。这两年赶上了大厂很不好的光景，晋升被卡，涨薪变慢，真的是一言难尽。也算是openAI给饭吃，最近大火的大模型里用到了强化学习。因此想要尝试跳槽，换一份大模型方向的工作，做RLHF或者LLM-agents。

在boss上挂完简历，发现来聊的hr或者猎头倒是不少，可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后，发现很多LLM岗位还是需要过往有NLP的经验，这个倒也是符合预期。对于阿里系（拆分后各个事业群独立招聘）、字节、百度等大厂，或者百川智能、360等比较头部有名气的中小公司，或许也能给到面试机会，但是在面试过程中一旦涉及到LLM具体的项目经验，像我这种完全空白的人来说只能尴尬地说没做过，背过的一些八股文也只能勉强应付。

面试一圈下来，拿了百度、美团、滴滴、快手这几家偏业务的算法岗位offer，但是跟大模型没啥关系，基本上都是各家业务的核心算法岗。感觉他们可能是因为这两年刚毕业一批人，空出一些hc，因为我这种强化学习背景的，只能说是业务算法的一个探索方向，不算是核心解决方案。大模型方向的offer，只拿到两个，打算选择其中一家。虽然现在大环境仍然不算好，跳槽有风险，尤其是创业公司，但是在大厂里温水煮青蛙也是困境。搏一搏，单车变摩托。

下面是面试过程中记录的一些关于大模型、强化学习的问题，仅供参考。

PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？
PPO算法和DQN算法的区别是什么？
有哪些PPO算法的调参经验？
在线强化学习和离线强化学习在技术和应用场景上有什么区别？
强化学习和大模型之间的关联是什么？
如何评估大模型中数据集的质量？
目前国内一般选择基于哪些基座模型继续训练？
国内做大模型的主要工作是哪几个部分？
除了数据之外，还有哪些方向的工作可以进一步优化大模型的效果？
大语言模型是怎么输出的，观察过输出的概率值吗？
关于微调的方法有哪些？
如果让你训练一个模型，基座，数据，finetune的方法怎么选？
怎么解决大语言模型的幻觉问题，RLHF可以吗？
是否看好国内做基座模型工作的前景，为什么？
为什么模型越大，貌似更多地具备AGI的能力？这背后的逻辑是什么？
介绍下对transformer的了解，网络结构相比于lstm有什么不同？
transformer里用到的正则化方法有哪些？
chatgpt训练过程中，奖励模型有更新吗？
chatgpt强化学习训练阶段还有什么改进的空间和思路吗？
直接用训练reward model的数据精调模型，而不用强化学习，是否可行？为什么？
了解bert和gpt网络结构的细节及其差异吗？
假如reward model不太准，怎么办？
有做过大模型训练的实践吗，有哪些收获或者感悟？

坦白讲，这些问题对于有过大模型项目经验的人来说应该问题不大，尤其是有NLP背景的。但是如果目前工作内容和大模型无关，想要比较好的回答出上述问题还是有难度的。要准备好八股文，要对前沿的方向有了解，而且最好自己跑过大模型的训练，包括微调和对齐。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述