作者 | 小森 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1928556109037281822
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
部门与岗位:MMU - 【快Star】多模态大模型
一面
自我介绍,问实习和论文,对于 CV 的论文进行了深入的探讨,尤其对于引入 Diffusion 十分感兴趣,从 motivation 到 method 再到 result 顺下来的,花了比较长的时间
了解哪些多模态大模型,简要介绍一下吧,目前主流的多模态大模型的范式是什么样的
在 BLIP-2 或者 Qwen-VL 中,Learnable Query 的作用是什么,为什么在后续版本中,比如 BLIP-3 和 Qwen2-VL 中都不使用了
了解 KV Cache 吗
大模型的后训练是怎么做的,在 VLM 上做后训练有什么区别
知道 SAM 吗?说说 SAM 是怎么做的,对于 point,box 以及 text 这些不同的 prompt 输入,模型是怎么进行 encode 的
概率题:一根绳子剪成三段,这三段可以围成三角形的概率是多少
代码:32. 最长有效括号
一面论文问的比较细致,对于没有提到的细节面试官还会询问确认,但是八股问的还是比较常规的,就是概率题有点烦
二面
自我介绍,问实习和论文,重点问了论文,还是比较感兴趣 CV 方面的东西,比如 Backbone 的选择,Diffusion 怎么和 DETR 结合的等等
讲一下 LoRA,两个权重矩阵一般怎么初始化,能都全 0 吗?为什么
除了 LoRA,还了解哪些可以进行训练推理优化的技术,DeepSpeed 的三个阶段分别是怎么优化的
现在的多模态大模型,动态分辨率一般都是怎么做的,位置编码怎么设计
概率题,一副扑克牌,去掉大小王,随机抽两张,花色相同的概率
场景题:目前有一个带货的直播间,设计一个方案,要确定目前正在卖的是哪个商品,尽可能详细的说,商品比较多怎么降低时延,商品比较小怎么精确识别
给你发了 offer 能提前来实习吗
代码:236. 二叉树的最近公共祖先
二面仍是对于论文的详细拷打,看来面试官比较看重论文,八股倒是问的比较简单。场景题也比较烦,面试官会在给定的方案上提出未解决的问题,要一步一步完善方案
三面
自我介绍,挑一个你觉得做的比较好的实习或者论文讲一下,因为之前都是在拷打论文,这里就挑了 MSRA 的实习讲了讲
目前有在跟进一些多模态大模型的进展吗?最新的一些多模态大模型都是怎么做的吗
了解多模态 RAG 吗
场景题:现在有一些图文或者视频,需要你构建一个多模态大模型来判断这些图文或者视频的质量,怎么做
开放题:平常在训练或者微调 LLM 或者 VLM 的时候,有什么心得吗
代码:模拟题,一个推荐链路的排序
三面我觉得对于知识的广度考察比较多,问的比较泛,没有特别八股的考察,对于某个点进行深挖,面试氛围还是比较轻松的
四面
四面是答辩环节,这里主要就是按照自己之前的经历来了。最好是把之前的工作串成一条主线,按照这条线来展开,条理会比较清晰,吃了这个亏了
具体问题的话,因为面试官职级比较高,所以问的问题就没有那么技术,比如会考察对于业务的理解,或者问职业规划这些
总结
总的来说,感觉面试体验不错,面试官还是非常专业的。前三面都是正常的面试难度,有答辩就是有机会 Star,没答辩就是正常校招了
更多大模型学习资料,欢迎加入『大模型之心Tech知识星球』
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com