【25最新】98场大模型面经+配套答案

最新推荐文章于 2025-12-08 19:15:00 发布

原创最新推荐文章于 2025-12-08 19:15:00 发布 · 82 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法

更多内容移步同号小红书～

美团大模型算法一面
1.了解DeepSeek-R1吗？介绍一下。
2.R1的MLA是如何实现KV-Cache的节约
3.R1在SFT时冷启动的目的？
4.位置编码是什么？解释ROPE
5.一个14B的模型，推理和训练要多少显存？
6.显存的占用和哪些因素相关？
7.大模型灾难性遗忘是什么？如何解决8.BF16、 FP16、 FP32对比
9.Adam， Adamw原理
10.deepspeed的三个阶段

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小飞侠AGI

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

国内大模型公司，粗略面经+感受+一些包裹

weixin_51702416的博客

05-15

1003

2023年三月前后，大模型突然国内火了起来，楼主就面了一些公司，有大厂有初创，最近挺多朋友聊大模型相关的内容，对面试也感兴趣，想这里综合写一下，也希望能和各位同行交流下。各种Norm，这个频率也不低，不过比较标准的内容，没有啥特意要说的，有的考手写，有的考概念和理解（为什么管用）。网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

大模型面经 - 腾讯混元

HUANGXIN9898的博客

05-06

904

型目前还有哪些可以改进的点四面整体更看重思维和基础，没有考察什么八股。

参与评论您还未登录，请先登录后发表或查看评论

2024一整年，我把国内大模型公司面经+感受总结了，希望能帮助到你！

2401_84204413的博客

12-10

1770

2023年三月前后，大模型突然国内火了起来，楼主就面了一些公司，有大厂有初创，最近挺多朋友聊大模型相关的内容，对面试也感兴趣，想这里综合写一下，也希望能和各位同行交流下。因为有一段时间了（最早面的半年了），所以大部分细节记不清了，列表顺序大概齐按面试时间排的。后边会大体总结下面试的经验感悟，以及我认为要注重的内容，一家之言仅供参考，如有侵权，留言告诉楼主，第一次发文章请多包涵。

HUANGXIN9898的博客

02-28

1519

正则化主要目的是控制模型复杂度，减小过拟合。正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。L1：向量绝对值和，趋向于产生少量的特征，而其它的特征都为0，有助于处理高维数据集, 使权重稀疏。L2：向量平方和，会选择更多的特征，但这些特征都接近于0，使权重平滑。

超详细！大模型面经指南（附答案）

2401_85375151的博客

03-04

1174

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。Transformer架构：大模型LLM常使用Transformer架构，它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。自注意力机制（Self-Attention）：自注意力机制是Transformer架构的核心组件之一。

大模型面经 | 春招、秋招算法面试常考八股文附答案（RAG专题三）

皮先生的博客

04-10

1533

在使用RAG时候，有哪些优化策略?

终极指南：LoRA篇大模型面经，最全总结与实战技巧

2401_85375151的博客

02-06

2283

通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。实现思想很简单，就是冻结一个预训练模型的矩阵参数，并选择用A和B矩阵来替代，在下游任务时只更新A和B。

做大模型一年半，经历了无数场面试。

2401_85390073的博客

10-30

1364

对于学生来说，首要的自然是学习。学校背景如何、专业课成绩如何、基础知识是否扎实？面试时遇到学生，经常碰到的尴尬场面是：问数学题（高数/线代/概统），答曰大一学的忘了；问编程题（leetcode easy/medium 难度），答曰没刷题写不了；问模型结构（指 LLaMA），答曰平常都是调 ChatGPT API，不清楚。相当一部分候选人是答不上来 transformer 模型结构的——一半人承认自己不清楚细节，另一半人里 90% 是自以为自己知道、但实际不知道。

大模型面试指南：超详细、超全面经与答案，非常详细收藏我这一篇就够了！

2401_85390073的博客

04-02

736

拼多多大模型算法工程师面试，面试官很nice（附面试题）

2401_85782938的博客

06-21

2770

大模型的 honest原则是如何实现的?模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力?如何解决 PPO 的训练过程同时存在4个模型(2训练，2推理)，对计算资源的要求较高问题?从考察问题延展到考察知识点，再到如何优雅回答一面俱全，可以说是求职面试的必备宝典，每一部分都有上百页内容，接下来具体展示，完整版可直接下方扫码领取。6.领域模型 Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识?5.领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力?

小红书大模型二面：“为什么大模型训练都需要 warm up 阶段？”

weixin_51702416的博客

05-09

1022

大模型训练中引入warmup阶段的主要原因是为了提高训练的稳定性和最终效果。随着模型规模的增大和数据量的增加，传统的超参数调优方法如gridsearch变得成本高昂且效果不佳。特别是学习率的选择对模型训练的影响巨大，过大的初始学习率可能导致模型无法收敛，而过小的学习率则可能导致训练速度慢且容易陷入局部最优。warmup通过逐步增加学习率，帮助模型在训练初期避免因学习率过大而导致的梯度剧烈变化和优化方向错误，从而更稳定地收敛。此外，warmup还能减少自适应学习率优化器在训练早期的高方差问题，降低模型陷入局部

Tokens 是什么, 为什么大模型按Tokens 收费, 和API调用收费的区别

weixin_51702416的博客

05-17

1197

在自然语言处理 (NLP) 和大语言模型（如 GPT 系列）中，token是文本数据的基本单位。一个词（例如，“apple”）。一个字符（例如，“a” 或者标点符号）。甚至是子词、词根或其他形式的文本碎片。对于英语等语言，通常一个 token 大致相当于一个单词或者标点符号。但在一些语言中，token 可能会更小，例如在中文中，每个字符（如一个汉字）通常被视为一个 token。混合收费模式：可能有基础的 API 调用费用，再加上根据 tokens 数量收取的额外费用。Tokens。

Leetcode 68 搜索插入位置 | 寻找比目标字母大的最小字母

im_AMBER的博客

12-04

1056

你的错误逻辑正确逻辑找到 target 时返回 mid-1找到 target 时，继续向右查找（因为需要「大于」target 的最小字符）target <letters [mid] 时，mid 是候选，需保留，right=mid（左闭右开）或不立即排除 mid循环结束直接返回 letters [0]循环结束后，先判断 left 是否越界：越界则返回 letters [0]，否则返回 letters [left]初始right的取值与「越界判断」不匹配；

浅谈：快递物流与算法的相关性（五）

Duoya1105的博客

12-05

172

NP-C 的英文全称是 Non-deterministic Polynomial Complete，即多项式复杂程度的非确定性问题。简单的写法是NP=P？，问题就在这个问号上，到底有没有让NP=P的算法，或是如何证明NP≠P。启发式算法的思想是：在不断解决问题的过程中寻找解决问题的最优方案。再举一个通俗的例子：当我们用数字密码解锁手机时，如果我们不知道密码是多少，必须将所有的数字组合依次尝试。这听起来像是一句废话，如果将它抽象一点的表述，就是：能用电脑快速验证一个解的问题，是否也能够用电脑快速地求出解。

【剑斩OFFER】算法的暴力美学——数青蛙

就业知识博客

12-04

374

力扣1419题：数青蛙

【芯芯相印】什么是算法定点化？

智能守恒_HengAI

12-07

算法定点化（Algorithm Quantization）是将模型中32位/64位浮点数参数与计算过程转换为8位（或更低）整数的技术，核心价值在于降低算力消耗、减少内存占用、加速推理速度，是边缘设备部署与大模型轻量化的关键技术之一。本文从原理入手，结合PyTorch实战代码，详解定点化的实现流程、精度优化方法与工程实践要点，帮助开发者快速落地定点化模型。算法定点化本质是数值表示的精度压缩——通过牺牲极小的精度损失，换取存储与计算效率的数量级提升。

MATLAB完整复现算法

huanghm88的专栏

12-05

147

该论文研究在酉群上的优化问题，提出基于梯度的Jacobi算法用于复矩阵和张量的近似对角化。作者证明了算法的弱收敛性，并建立了局部线性收敛结果。算法通过连续的Givens旋转更新酉矩阵的列对，计算效率高。收敛性分析基于Łojasiewicz梯度不等式，适用于实值和复值张量情况，填补了张量对角化Jacobi算法收敛性理论研究的空白。

三相模型预测控制（MPC）逆变器，直流侧电压为650v，在dq坐标系下进行控制，电压外环采用PI算法

最新发布

qq__27699885的博客

12-08

262

这里有个小技巧——把PI输出直接当作电流内环的q轴参考值，这样电压环和电流环就实现了无缝对接。三相模型预测控制（MPC）逆变器，直流侧电压为650v，在dq坐标系下进行控制，电压外环采用PI算法，电流内环采用模型预测控制算法，通过matlab function实现，输出参考电压值可调。电流环才是MPC的主战场。咱们用离散化模型预测未来三个控制周期内的电流变化，在8个基本电压矢量里挑最合适的那个。试过把三步改成两步，开关频率能降15%，不过电流THD会从1.8%升到2.5%，鱼和熊掌得看具体需求了。

leetcode 1523

2301_77892984的博客

12-07

250

1523: 在区间范围内统计奇数数目。

大模型面经

06-01