2025届NLP算法岗实习面经_大模型面经

大模型老炮

于 2025-03-27 18:46:25 发布

阅读量1.5k

点赞数 15

文章标签：算法人工智能程序员大模型大模型学习大模型教程 AI

本文链接：https://blog.youkuaiyun.com/2401_85375151/article/details/146568228

版权

背景

本科211，硕士中科院计算所，一独角兽大模型实习，一C类论文

暑期简介

博主暑期实习一共投了28家，全投的算法岗，最后拿offer的有腾讯PCG搜索算法、华为2012，作业帮NLP与搜索算法，去哪儿网大模型，最后去向腾讯
由于暑期5月23日才开始投，这会儿几乎没啥hc了，很多都是简历挂，挂简历的有：联想暑期（NLP算法）、小米暑期（NLP、推广搜）、滴滴暑期（内容安全算法）、米哈游（NLP算法）、商汤（大模型）、快手暑期（推广搜算法）、高德（NLP和多模态）、蚂蚁金服（NLP和推广搜）、淘宝天猫（NLP和推广搜）、oppo寻梦计划（多模态算法）、阿里巴巴（大模型）
一直没消息的也默认挂简历：滴滴日常（NLP）、腾讯音乐（机器学习）、58同城（算法）、小红书（NLP、多模态）、移动研究院（NLP算法）、360（NLP、大模型）、第四范式（机器学习）、京东（NLP）、网易（NLP）
有面试的有，高亮的为通过的：联想日常（大模型）、美团暑期（大模型）、华为2012实验室（嵌入式开发）、腾讯wxg（NLP与搜索）、腾讯pcg（NLP与搜索）、百度（NLP与大模型）、饿了么（NLP与搜索）、字节跳动日常（大模型）、==作业帮（NLP与搜索）==、==去哪儿网（大模型算法）==
主动拒的有：探探（推荐）、民生银行（技术研发）

1. 零一万物

1.1 一面

coding，7道题，一个小时，由于博主写代码时过于纠结细节，导致题目挺多没写完，感觉要寄

1.2 结果

挂了

2. 面壁智能（OpenBMB）

2.1 一面

上来先自我介绍，博主简单介绍了background，然后说了下实习原因，就开始提问了。
讲一下teaching forcing的原理；如果生成时全部使用真实token作为输入会有什么后果（项目相关）
讲一下beam search算法原理（项目相关）
训练模型时有没有遇到过loss为nan的现象，怎么解决的
训练时loss一直降不下来可能有哪些原因
有没有了解过并行训练，说一下原理
dropout的作用
训练模型时遇到out of memory怎么解决，没有额外显卡的情况下
self attention的计算过程
transformer中计算复杂度最高的是哪个模块，时间复杂度与什么有关，复杂度是多少
打开IDE现场写算法题（leetcode easy难度）
IDE现场手写self attention代码
有没有调研过已有的大模型
一周能实习几天

2.2 HR面

谈工资，300一天，30餐补，加班报销打车，8小时工作制

暑期

3. 去哪儿旅行

3.1 一面

上来先自我介绍
介绍最近一段实习经历内容
实习所做的工作有没有测评性能
解释PPL指标
这段实习持续多久，为什么不继续实习
除了llama以外，还有在其他中文大模型如chatglm上做推理吗
介绍一下对比了哪些baseline方法，简单介绍baseline方法
你们使用的方法在不考虑推理长度超过KV Cache时，推理结果的准确性相比正常推理有变化吗
有没有做过大模型微调相关工作，不考虑BERT这类预训练模型
介绍另一段实习经历主要内容
反问环节
- 实习生具体工作内容有哪些
- 可用的显卡有多少，A100有多少
- 实习产出相关内容

3.2 HR面

说一下你实习的公司和互联网公司的区别
说一下你对互联网公司的了解
还有投其他公司吗
能实习多久，最快什么时候入职
能接受互联网公司的加班吗，8-9点下班
谈工资，280一天，可能会有加班

4. 饿了么（搜索部门；搜索算法）

4.1 一面

时间：29分钟的样子就结束了，感觉是KPI面
自我介绍
问实习经历，介绍大模型长文本推理，介绍PPL是什么
问项目，中文拼写纠错主要做什么
手撕代码：场景题，对搜索结果按要求排序，因为我对搜索了解的不多，只大概说了下思路

4.2 结果

挂了

5. 腾讯（wxg——微信搜索团队；搜索算法）

5.1 一面

时间：50分钟左右
问实习经历，简单讲了后，面试官说他不太了解大模型，于是问后面的
问了多模态中文拼写纠错，得知主要做的数据方面的工作后也没继续问了
问论文，具体细节问了挺长时间
手撕代码：leetcode 第22题《括号生成》（hot100），那会儿还没刷题，不太熟练，知道思路是用dfs，但不敢写，只说了思路

5.2 结果

挂了

6. 百度（平台与生态产品组；大模型）

6.1 一面

时间：1小时10分钟
手撕代码：leetcode 第54题《螺旋矩阵》（剑指offer）
手撕代码：leetcode 第53题《最大子数组和》（hot100）
问实习经历，介绍大模型长文本推理，主要做长文本哪方面的优化
介绍下什么是长度外推
你们一共测评了大模型推理过程中哪些指标
你们用了什么样的测评数据集，用户输入是怎么样的
你提到的baseline方法有自己的测试数据集吗
你对long context这方面还有其他了解的吗
场景问题：现在有个大模型正常只能处理8k的上下文，现在我们有个200w长度的prompt输入要处理，你觉得有哪些点是可以考虑优化的；我：可以用RAG解决这个问题。面试官：RAG主要处理问答，那要是做文本摘要呢；我：尝试使用prompt压缩
介绍多模态中文拼写纠错项目

6.2 结果

挂了

7. 百度（智能云summer camp；大模型）

7.1 一面

时间：40分钟
问简历内容
怎么解决大模型幻觉问题
说一下prompt tuning和ICL（In-Context Learning）的区别、共性和联系
手撕代码：题目不记得了，只记得是个数组的题，用哈希表解决的

7.2 结果

挂了

8. 美团（核心本地商业；大模型）

8.1 一面

时间：40分钟
主要问大模型的实习经历
transformer的encoder和decoder的区别
以上哪个是双向的哪个是单向的
BERT简单介绍
然后说我实习主要作大模型推理，对大模型了解还存在局限性（挂的原因）

8.2 结果

挂了

9. 作业帮（NLP与搜索；搜题业务）

9.1 一面

时间：1小时
手撕代码：leetcode 第40题《组合总和II》
问实习经历，压力面，简历都问得很深，并根据做的内容问八股，比如PPL公式，怎么计算的
BN和LN的区别，NLP领域主要用哪个，为什么不用BN
Llama模型结构相对于传统的transformer架构有什么改进，这个师姐在论文讨论班还专门讲了，我又忘了，只记得RoPE，和MQA、GQA，忘了RMSNorm归一化以及SwiGLU激活函数