背景
本科211,硕士中科院计算所,一独角兽大模型实习,一C类论文
暑期简介
- 博主暑期实习一共投了28家,全投的算法岗,最后拿offer的有腾讯PCG搜索算法、华为2012,作业帮NLP与搜索算法,去哪儿网大模型,最后去向腾讯
- 由于暑期5月23日才开始投,这会儿几乎没啥hc了,很多都是简历挂,挂简历的有:联想暑期(NLP算法)、小米暑期(NLP、推广搜)、滴滴暑期(内容安全算法)、米哈游(NLP算法)、商汤(大模型)、快手暑期(推广搜算法)、高德(NLP和多模态)、蚂蚁金服(NLP和推广搜)、淘宝天猫(NLP和推广搜)、oppo寻梦计划(多模态算法)、阿里巴巴(大模型)
- 一直没消息的也默认挂简历:滴滴日常(NLP)、腾讯音乐(机器学习)、58同城(算法)、小红书(NLP、多模态)、移动研究院(NLP算法)、360(NLP、大模型)、第四范式(机器学习)、京东(NLP)、网易(NLP)
- 有面试的有,高亮的为通过的:联想日常(大模型)、美团暑期(大模型)、华为2012实验室(嵌入式开发)、腾讯wxg(NLP与搜索)、腾讯pcg(NLP与搜索)、百度(NLP与大模型)、饿了么(NLP与搜索)、字节跳动日常(大模型)、==作业帮(NLP与搜索)==、==去哪儿网(大模型算法)==
- 主动拒的有:探探(推荐)、民生银行(技术研发)
1. 零一万物
1.1 一面
- coding,7道题,一个小时,由于博主写代码时过于纠结细节,导致题目挺多没写完,感觉要寄
1.2 结果
- 挂了
2. 面壁智能(OpenBMB)
2.1 一面
- 上来先自我介绍,博主简单介绍了background,然后说了下实习原因,就开始提问了。
- 讲一下teaching forcing的原理;如果生成时全部使用真实token作为输入会有什么后果(项目相关)
- 讲一下beam search算法原理(项目相关)
- 训练模型时有没有遇到过loss为nan的现象,怎么解决的
- 训练时loss一直降不下来可能有哪些原因
- 有没有了解过并行训练,说一下原理
- dropout的作用
- 训练模型时遇到out of memory怎么解决,没有额外显卡的情况下
- self attention的计算过程
- transformer中计算复杂度最高的是哪个模块,时间复杂度与什么有关,复杂度是多少
- 打开IDE现场写算法题(leetcode easy难度)
- IDE现场手写self attention代码
- 有没有调研过已有的大模型
- 一周能实习几天
2.2 HR面
- 谈工资,300一天,30餐补,加班报销打车,8小时工作制
暑期
3. 去哪儿旅行
3.1 一面
- 上来先自我介绍
- 介绍最近一段实习经历内容
- 实习所做的工作有没有测评性能
- 解释PPL指标
- 这段实习持续多久,为什么不继续实习
- 除了llama以外,还有在其他中文大模型如chatglm上做推理吗
- 介绍一下对比了哪些baseline方法,简单介绍baseline方法
- 你们使用的方法在不考虑推理长度超过KV Cache时,推理结果的准确性相比正常推理有变化吗
- 有没有做过大模型微调相关工作,不考虑BERT这类预训练模型
- 介绍另一段实习经历主要内容
- 反问环节
- 实习生具体工作内容有哪些
- 可用的显卡有多少,A100有多少
- 实习产出相关内容
3.2 HR面
- 说一下你实习的公司和互联网公司的区别
- 说一下你对互联网公司的了解
- 还有投其他公司吗
- 能实习多久,最快什么时候入职
- 能接受互联网公司的加班吗,8-9点下班
- 谈工资,280一天,可能会有加班
4. 饿了么(搜索部门;搜索算法)
4.1 一面
- 时间:29分钟的样子就结束了,感觉是KPI面
- 自我介绍
- 问实习经历,介绍大模型长文本推理,介绍PPL是什么
- 问项目,中文拼写纠错主要做什么
- 手撕代码:场景题,对搜索结果按要求排序,因为我对搜索了解的不多,只大概说了下思路
4.2 结果
- 挂了
5. 腾讯(wxg——微信搜索团队;搜索算法)
5.1 一面
- 时间:50分钟左右
- 问实习经历,简单讲了后,面试官说他不太了解大模型,于是问后面的
- 问了多模态中文拼写纠错,得知主要做的数据方面的工作后也没继续问了
- 问论文,具体细节问了挺长时间
- 手撕代码:leetcode 第22题《括号生成》(hot100),那会儿还没刷题,不太熟练,知道思路是用dfs,但不敢写,只说了思路
5.2 结果
- 挂了
6. 百度(平台与生态产品组;大模型)
6.1 一面
- 时间:1小时10分钟
- 手撕代码:leetcode 第54题《螺旋矩阵》(剑指offer)
- 手撕代码:leetcode 第53题《最大子数组和》(hot100)
- 问实习经历,介绍大模型长文本推理,主要做长文本哪方面的优化
- 介绍下什么是长度外推
- 你们一共测评了大模型推理过程中哪些指标
- 你们用了什么样的测评数据集,用户输入是怎么样的
- 你提到的baseline方法有自己的测试数据集吗
- 你对long context这方面还有其他了解的吗
- 场景问题:现在有个大模型正常只能处理8k的上下文,现在我们有个200w长度的prompt输入要处理,你觉得有哪些点是可以考虑优化的;我:可以用RAG解决这个问题。面试官:RAG主要处理问答,那要是做文本摘要呢;我:尝试使用prompt压缩
- 介绍多模态中文拼写纠错项目
6.2 结果
- 挂了
7. 百度(智能云summer camp;大模型)
7.1 一面
- 时间:40分钟
- 问简历内容
- 怎么解决大模型幻觉问题
- 说一下prompt tuning和ICL(In-Context Learning)的区别、共性和联系
- 手撕代码:题目不记得了,只记得是个数组的题,用哈希表解决的
7.2 结果
- 挂了
8. 美团(核心本地商业;大模型)
8.1 一面
- 时间:40分钟
- 主要问大模型的实习经历
- transformer的encoder和decoder的区别
- 以上哪个是双向的哪个是单向的
- BERT简单介绍
- 然后说我实习主要作大模型推理,对大模型了解还存在局限性(挂的原因)
8.2 结果
- 挂了
9. 作业帮(NLP与搜索;搜题业务)
9.1 一面
- 时间:1小时
- 手撕代码:leetcode 第40题《组合总和II》
- 问实习经历,压力面,简历都问得很深,并根据做的内容问八股,比如PPL公式,怎么计算的
- BN和LN的区别,NLP领域主要用哪个,为什么不用BN
- Llama模型结构相对于传统的transformer架构有什么改进,这个师姐在论文讨论班还专门讲了,我又忘了,只记得RoPE,和MQA、GQA,忘了RMSNorm归一化以及SwiGLU激活函数
9.2 二面
- 时间:40分钟
- 由于一面在简历和八股上进行了深入拷打,表现都还挺好的,二面问的就比较简单了,主要问简历,没有八股了
- 手撕代码:leetcode 第153题《寻找旋转排序数组中的最小值》(hot100)的改编,找旋转数组的中位数,思路一样还是二分
- 逻辑证明题:有三个连续的整数都大于6,其中有两个数是素数,证明剩下的那个数能被6整除
9.3 HR面
- 聊待遇:350一天,包三餐,给转正
- 工作时间:早上10点-晚上7点
9.4 结果
- 拿offer了,真的泪目了,暑期终于拿offer了
10. 腾讯(pcg——综合搜索;搜索算法)
10.1 一面
- 时间:1小时
- 问论文细节
- 问常见分类任务评价指标,ROC原理和AUC原理
- 问论文中数据不均衡的话,你们怎么处理
- 问BERT的结构
- 手撕代码:leetcode 第70题《爬楼梯》(hot100)时间复杂度o(n)、空间复杂度o(1)
- 手撕代码:leetcode 第72题《编辑距离》(hot100)时间复杂度和空间复杂度均为o(n^2)
10.2 二面
- 时间:1小时
- 问简历上的实习经历
- 你还调研了哪些大模型long context的方法
- 问论文详细内容,包括baseline,数据集情况等等
- 手撕代码:leetcode 第234题《回文链表》(hot100)
10.3 三面
- 时间:35分钟
- 还是问实习经历和论文项目经历为主
10.4 HR面
- 时间:30分钟
10.5 结果
- 拿offer了,也是最终去向,梦厂,就是过程很艰辛,面试轮数最多的,结束后还要云证、审核
11. 字节跳动(高斯math;大模型)
11.1 一面
- 时间:1小时
- 问transformer结构
- 手撕代码:手写Multi-Head Attention
- 注意力计算为什么要除以$\sqrt{d_k} $
- 手撕代码:leetcode 第279题《完全平方数》(hot100)
- 问大模型实习经历
- 问还知道哪些提升大模型推理效率的方法
- 神经网络量化的原理
- flash-attention原理
11.2 二面
- 时间:1小时
- 主要问实习经历和论文项目经历,具体内容忘了
- 手撕代码:搜索包含特定个数辅音字母的字串,同时字串是符合要求的最长的字串,思路是用双指针,但我当时状态不好,只想到两轮循环遍历
11.3 结果
- 二面时挂了
12. 华为(2012实验室中央硬件院;软件开发)
12.1 一面
- 时间:1小时
- 手撕代码:leetcode 第739题《每日温度》(hot100)
- 问本科学了哪些课程
- 问常见的数据结构有哪些
- 栈和队列的区别是什么
- 算法中有用到过栈和队列吗,举出例子
- 操作系统中进程和线程有什么区别
- 讲一下计算机网络的分层(OSI七层模型)
- 物理层和数据链路层有什么区别
- 传输层有哪些协议
- 怎么区分TCP协议和UDP协议
- 网络安全相关的协议有哪些
- 知道IPSec协议吗
- 介绍实习经历,实验环境
- 介绍论文,论文主要的应用价值,方法相比大模型做的优点
- 介绍发明专利
- 会哪些编程语言,主要用哪些
12.2 二面
- 时间:30分钟
12.3 结果
- 面试通过,不过base在深圳,也没打算去
13. 联想日常(大模型)
13.1 一面
- 时间:1小时
- 手撕代码:numpy生成各种要求的矩阵
- 手撕代码:手写准确率,精确率,召回率计算方法;手写交叉熵损失
- 问实习经历,问对应八股,比如PPL的含义以及计算方式
- PPL和交叉熵损失的区别
- 实习时的项目主要负责哪些内容
- 问论文,介绍论文,你们的方法比baseline提高了多少
- 说一下常见的大模型以及他们的训练方式
- BERT和GPT的训练任务
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓