更多内容移步同号小红书~
美团大模型算法一面
1.了解DeepSeek-R1吗?介绍一下。
2.R1的MLA是如何实现KV-Cache的节约
3.R1在SFT时冷启动的目的?
4.位置编码是什么? 解释ROPE
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么? 如何解决8.BF16、 FP16、 FP32对比
9.Adam, Adamw原理
10.deepspeed的三个阶段
更多内容移步同号小红书~
美团大模型算法一面
1.了解DeepSeek-R1吗?介绍一下。
2.R1的MLA是如何实现KV-Cache的节约
3.R1在SFT时冷启动的目的?
4.位置编码是什么? 解释ROPE
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么? 如何解决8.BF16、 FP16、 FP32对比
9.Adam, Adamw原理
10.deepspeed的三个阶段
1003
2770
374
250

被折叠的 条评论
为什么被折叠?