【必收藏】大模型算法岗面试经验全解析:百度/腾讯/阿里大厂面试真题与知识点总结

百度

部门与岗位:百度TPG - 文心一言团队- 大模型算法岗

一面
  1. 自我介绍和项目介绍

  2. 介绍一下了解的大模型有哪些,这些模型在结构上有什么差异

  3. 说一下大模型常用的位置编码有哪些,各有什么优缺点

  4. 介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了 RLHF 的做法,包括 PPO 算法的原理,以及 DPO 和 PPO 的区别

  5. 大模型的超长上下文是怎么做的,比如说 KIMI

  6. 大模型智能体是怎么工作的,有哪些组件

  7. 场景题:如何训练一个大模型,可以做到精确的提取摘要

  8. 代码:股票的四个题

  9. 买卖股票的最佳时机

  10. 买卖股票的最佳时机 II

  11. 买卖股票的最佳时机 III

  12. 买卖股票的最佳时机 IV

整体来说一面偏基础,问的问题也主要是一些大模型的八股问题,没有太多发散性的问题,难度不大。但是考察的还是挺全面的,整个面试一个半小时多

二面
  1. 自我介绍
  2. 因为之前是做 CV 的,所以面试官问了 CV 和 NLP 的区别和联系,在 Transformer 的大背景下,CV、NLP,包括语音等,能否实现大一统
  3. 训练大模型的时候数据怎么清洗,怎么处理,怎么配比,怎样操作能更容易使模型达到更好的性能
  4. 什么是大模型的幻觉,如何减轻幻觉问题
  5. 大模型的复读问题是怎么产生的,业内一般有什么解决办法
  6. 大模型的工具调用怎么实现
  7. Agent 有哪几部分构成,了解哪些具体的实现方法
  8. 开放题:之前训练大模型的时候遇到过什么困难,你是怎么解决的
  9. 代码:实现一个 Tokenizer,只能用 PyTorch 基础语法

二面相比于一面更加看重综合素质,喜欢考察分析问题解决问题的能力,对于一些细节知识点的考察并不多。二面也面试了一个多小时,面试官还是挺专业的。

三面
  1. 首先过项目,但是问的特别细致,尤其是一个 Agent 的项目,从背景,到动机,再到做法,最后的结果,都问的非常细,大概有半个小时的时间
  2. 开放题:你觉得当前大模型还存在怎样的问题,有什么解决办法吗
  3. 开放题:让你自己设计一个 Agent,会怎么做,为什么这样做
  4. 找工作比较在意的点是什么,除了薪资还有什么
  5. 对文心一言这个产品了解吗,有哪些优点和值得改进的点
  6. 如果给你发 Offer,你到这个团队能做出什么贡献

三面整体来说更加综合,不止有一些技术问题,还有职业规划这些问题,更加考察整体的能力。面试官应该是这个团队的大老板,看问题更加系统和全面,整体面下来还是比较有压力的。

总结

整体下来感觉面试官都是非常专业的,面试深度和广度都很可以,三场面试层层递进。面试官人也不错,如果比较满意的话也愿意多花时间来聊,而不是严格的卡一个小时这种完任务式的面试。

腾讯

背景:本弱鸡 211 本硕,nlp,无论文有实习(老板没资源且放养),本科有 acm 经历(1 铜),面试 pcg 日常实习。

一面

Q1:了解什么机器学习算法,讲一下原理?

当时只记得实体识别用到了隐马尔可夫模型,讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。

Q2:讲一下 Bert 的结构和怎么训练的,怎么用 bert 做下游任务?

八股,双向 transformer encoder 结构,预训练任务包括 MLM 和 NSP,详细讲了讲。下游任务做过文本分类、关系提取等,用 cls 做预测;也可以做摘要生成等任务。

Q3:有没有了解过 LLM,有自己调过吗,了解 RLHF 过程吗?

自己训练过 llama3 和 glm(8、9B),跑过 sft 和 dpo,有看过一些技术报告。当时用 deepspeed 跑的,然后讲了讲 RLHF 三个过程,最后 PPO 四个模型的作用。

Q4:有了解强化学习吗?能不能详细说说 PPO 是什么?

只通过 RLHF 了解过一点,好像跟面试官想要的答案不一致,跳过。

Q5:怎么扩展大模型的最大输入长度?

改变 transformer 结构(GQA,MQA,flash attention等),旋转位置编码 RoPE 等(只看过论文,自己用的很少,就想到啥说啥)

Q6:有了解过模型训练方法吗?

没用过(感觉要凉)

Q7:有了解过文生图吗?

有了解过一些项目,diffusion 和 clip 原理,之前有自己跑过 unet+diffusion+vae 做文生图任务,讲了下为什么这么做。

Q8:手撕快排

当天晚上收到了参加二面的邮件,小激动。

二面

二面没有手撕代码,问了问项目:

  • 讲一下微调大模型是怎么做的,数据集怎么构建,数据怎么处理
  • 看项目中用了 RAG,讲一下设计流程
  • 其中文本 chunk 怎么做的,为什么这么做
  • 中间有没有遇到什么困难,怎么提高召回,如果文本输入大模型后效果不好怎么办
  • 怎么提高大模型的外推性
  • 有了解过文生图任务吗(怎么又问这个)

然后草草结束,一天后流程结束(挂了,继续努力)

阿里

部门与岗位:淘天集团 - 搜推智能产品事业部 - 多模态大模型

一面
  1. 首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的
  2. 介绍一下 CLIP
  3. 了解 LoRA 吗,LoRA 微调的原理是什么
  4. 了解哪些多模态大模型,简要介绍几个
  5. BLIP 的三个损失函数分别是什么,数据是怎样清洗的
  6. BLIP2 相对于 BLIP 有哪些改进,BLIP3 又有哪些改进
  7. Qwen-VL 的三个训练流程分别是什么,有什么作用
  8. 视觉编码器和 LLM 连接时,使用 BLIP2 中 Q-Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点
  9. 代码:实现多头自注意力

一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的

二面
  1. 自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题
  2. 了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 \sqrt{d_k} 的原因是什么
  3. 后来有哪些比较经典的基于 Transformer 的语言模型,Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2 又有哪些改进
  4. 了解 RLHF 吗,DPO 和 PPO 有什么区别,Loss 是什么样的,各自的优缺点是什么
  5. 介绍一下 CLIP,还了解什么其他的对比学习方法
  6. 开放题:了解哪些多模态大模型,目前多模态大模型最大的问题是什么
  7. 代码:1143. 最长公共子序列

二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些

三面
  1. 自我介绍,然后详细过了一下项目
  2. 了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen 这些,以及当时的 o1 推理模型
  3. 平常有尝试过训练过大模型吗,规模小一点的也没关系
  4. 聊天,包括职业规划等等

三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧

总结

整体来说面试体验比较好,问的问题都不难,面试官也都不错,遇到一些卡壳的地方也会进行引导讨论,面试氛围很轻松。三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。

百度

部门与岗位:百度TPG - 文心一言团队- 大模型算法岗

一面
  1. 自我介绍和项目介绍

  2. 介绍一下了解的大模型有哪些,这些模型在结构上有什么差异

  3. 说一下大模型常用的位置编码有哪些,各有什么优缺点

  4. 介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了 RLHF 的做法,包括 PPO 算法的原理,以及 DPO 和 PPO 的区别

  5. 大模型的超长上下文是怎么做的,比如说 KIMI

  6. 大模型智能体是怎么工作的,有哪些组件

  7. 场景题:如何训练一个大模型,可以做到精确的提取摘要

  8. 代码:股票的四个题

  9. 买卖股票的最佳时机

  10. 买卖股票的最佳时机 II

  11. 买卖股票的最佳时机 III

  12. 买卖股票的最佳时机 IV

整体来说一面偏基础,问的问题也主要是一些大模型的八股问题,没有太多发散性的问题,难度不大。但是考察的还是挺全面的,整个面试一个半小时多

二面
  1. 自我介绍
  2. 因为之前是做 CV 的,所以面试官问了 CV 和 NLP 的区别和联系,在 Transformer 的大背景下,CV、NLP,包括语音等,能否实现大一统
  3. 训练大模型的时候数据怎么清洗,怎么处理,怎么配比,怎样操作能更容易使模型达到更好的性能
  4. 什么是大模型的幻觉,如何减轻幻觉问题
  5. 大模型的复读问题是怎么产生的,业内一般有什么解决办法
  6. 大模型的工具调用怎么实现
  7. Agent 有哪几部分构成,了解哪些具体的实现方法
  8. 开放题:之前训练大模型的时候遇到过什么困难,你是怎么解决的
  9. 代码:实现一个 Tokenizer,只能用 PyTorch 基础语法

二面相比于一面更加看重综合素质,喜欢考察分析问题解决问题的能力,对于一些细节知识点的考察并不多。二面也面试了一个多小时,面试官还是挺专业的。

三面
  1. 首先过项目,但是问的特别细致,尤其是一个 Agent 的项目,从背景,到动机,再到做法,最后的结果,都问的非常细,大概有半个小时的时间
  2. 开放题:你觉得当前大模型还存在怎样的问题,有什么解决办法吗
  3. 开放题:让你自己设计一个 Agent,会怎么做,为什么这样做
  4. 找工作比较在意的点是什么,除了薪资还有什么
  5. 对文心一言这个产品了解吗,有哪些优点和值得改进的点
  6. 如果给你发 Offer,你到这个团队能做出什么贡献

三面整体来说更加综合,不止有一些技术问题,还有职业规划这些问题,更加考察整体的能力。面试官应该是这个团队的大老板,看问题更加系统和全面,整体面下来还是比较有压力的。

总结

整体下来感觉面试官都是非常专业的,面试深度和广度都很可以,三场面试层层递进。面试官人也不错,如果比较满意的话也愿意多花时间来聊,而不是严格的卡一个小时这种完任务式的面试。

最后

为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈,说是面试问到了很多这里面的知识点。

由于文章篇幅有限,不能将全部的面试题+答案解析展示出来,有需要完整面试题资料的朋友,可以扫描下方二维码免费领取哦!!! 👇👇👇👇

在这里插入图片描述

面试题展示

1、请解释一下BERT模型的原理和应用场景。

答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。

2、什么是序列到序列模型(Seq2Seq),并举例说明其在自然语言处理中的应用。

答案:Seq2Seq模型是一种将一个序列映射到另一个序列的模型,常用于机器翻译、对话生成等任务。例如,将英文句子翻译成法文句子。

3、请解释一下Transformer模型的原理和优势。

答案:Transformer是一种基于自注意力机制的模型,用于处理序列数据。它的优势在于能够并行计算,减少了训练时间,并且在很多自然语言处理任务中表现出色。

4、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。

答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。

5、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。

答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。

6、请解释一下生成对抗网络(GAN)的原理和应用。

答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。

7、请解释一下强化学习(Reinforcement Learning)的原理和应用。

答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。

8、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。

答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。

9、解释一下迁移学习(Transfer Learning)的原理和应用。

答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。

10、请解释一下模型蒸馏(Model Distillation)的原理和应用。

答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。

11、请解释一下LSTM(Long Short-Term Memory)模型的原理和应用场景。

答案:LSTM是一种特殊的循环神经网络结构,用于处理序列数据。它通过门控单元来学习长期依赖关系,常用于语言建模、时间序列预测等任务。

12、请解释一下BERT模型的原理和应用场景。

答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。

13、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。

答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。

14、请解释一下生成对抗网络(GAN)的原理和应用。

答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。

15、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。

答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。

16、请解释一下强化学习(Reinforcement Learning)的原理和应用。

答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。

17、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。

答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。

18、请解释一下迁移学习(Transfer Learning)的原理和应用。

答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。

19、请解释一下模型蒸馏(Model Distillation)的原理和应用。

答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。

20、请解释一下BERT中的Masked Language Model(MLM)任务及其作用。

答案:MLM是BERT预训练任务之一,通过在输入文本中随机mask掉一部分词汇,让模型预测这些被mask掉的词汇。

由于文章篇幅有限,不能将全部的面试题+答案解析展示出来,有需要完整面试题资料的朋友,可以扫描下方二维码免费领取哦!!! 👇👇👇👇

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值