皮先生!-优快云博客

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（六）

大模型面经 | 春招、秋招算法面试常考八股文附答案（六），非常详细，建议收藏！！

2025-04-24 23:17:40 1224

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（五）

大模型面经 | 春招、秋招算法面试常考八股文附答案（五），非常详细，建议收藏！！

2025-04-23 22:04:56 895

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（四）

大模型面经 | 春招、秋招算法面试常考八股文附答案（四），非常详细，建议收藏！！

2025-04-22 23:48:50 1103

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（三）

大模型面经 | 春招、秋招算法面试常考八股文附答案（三），非常详细，建议收藏！！

2025-04-21 21:39:13 1044

原创 NLP/大模型算法工程师「春招、秋招高频面试题 | 建议收藏」

NLP/大模型算法工程师「春招、秋招高频面试题 | 建议收藏」

2025-04-20 23:17:44 691

原创大模型面经 | 介绍一下CLIP和BLIP

大模型面经 | 介绍一下CLIP和BLIP

2025-04-20 23:01:19 1247

原创大模型面经 | DeepSpeed中ZeRO-1、ZeRO-2和ZeRO-3的区别是什么？

ZeRO是用于大规模模型训练优化的技术，它的主要目的是减少模型的内存占用，让模型可以在显卡上训练，内存占用主要分为Model States和Activation两个部分，ZeRO主要解决的是Model States的内存占用问题。

2025-04-18 22:52:13 1916

原创大模型面经 | 请你介绍一下ReAct（Reasoning and Acting）？

大模型面经 | 请你介绍一下ReAct（Reasoning and Acting）？

2025-04-15 22:40:21 865

原创大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought，CoT)是什么？

大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought，CoT)是什么？

2025-04-14 23:00:46 1248

原创大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2

大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2

2025-04-14 21:29:18 1304

原创大模型面经 | 手撕多头注意力机制（Multi-Head Attention）

大模型面经 | 手撕多头注意力机制（Multi-Head Attention）

2025-04-13 21:30:45 691

原创大模型面经 | DeepSeek-R1中提到的知识蒸馏是什么？

大模型面经 | DeepSeek-R1中提到的知识蒸馏是什么？

2025-04-12 22:28:56 821

原创大模型面经 | 如何解决大模型幻觉问题？

大模型面经 | 如何解决大模型幻觉问题？

2025-04-12 15:45:33 1340

原创大模型面经 | 为什么会出现大模型幻觉问题?

大模型面经 | 为什么会出现大模型幻觉问题?

2025-04-11 22:34:22 456

原创大模型面经 | Prefix Decoder，Causal Decoder和Encoder-Decoder的区别是什么?

大模型面经 | Prefix Decoder，Causal Decoder和Encoder-Decoder的区别是什么?

2025-04-11 22:08:28 855

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（RAG专题三）

在使用RAG时候，有哪些优化策略?

2025-04-10 16:14:37 1542

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（RAG专题二）

在使用RAG时候，有哪些优化策略?

2025-04-09 23:57:45 1235

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（RAG专题一）

今天给大家分享一些关于大模型面试常见的RAG（检索增强生成）相关面试题，希望对大家的面试有所帮助。

2025-04-09 16:53:03 1371

原创一文搞懂DeepSeek核心技术-MTP（Multi-Token Prediction）

MTP 的核心思想是让模型一次性预测多个 token，以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力，还需要同时具备预测下 n 个token的能力。

2025-04-08 12:38:55 3049

原创一文搞懂DeepSeek核心技术-GRPO

Deepseek的GRPO（群组相对策略优化）算法是一种创新的强化学习方法，专为提升大型语言模型的推理能力而设计。它通过基于群组的评估方法和相对奖励优化机制，有效增强了模型的推理性能。与传统PPO算法相比，GRPO无需依赖独立价值模型，从而显著降低了内存和计算成本，同时提高了训练过程的稳定性。

2025-04-07 17:15:21 1284

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（二）

大模型面经 | 春招、秋招算法面试常考八股文附答案（二），非常详细，建议收藏！！

2025-04-07 16:18:59 828

原创大模型面经 | 春招、秋招算法面试常考八股文附答案（一）

大模型面经 | 春招、秋招算法面试常考八股文附答案（一），非常详细，建议收藏！！

2025-04-06 15:42:22 958

原创一文搞懂DeepSeek核心技术-DeepSeekMoE

DeepSeekMoE 架构是一种精巧的设计，它借鉴了“分而治之”的思想，通过引入专业化的路由专家和通用的共享专家，实现了更精细化、更灵活的处理。创新地提出了无额外损耗负载均衡策略，通过动态调整可学习的偏置项，进一步提升了 MoE 架构的效率和性能。

2025-04-06 12:21:06 1446

原创一文搞懂DeepSeek核心技术-多头潜在注意力（MLA）

大家好，我是皮先生！！本文将深入剖析模型核心技术-（MLA）的工作原理、技术创新，希望对大家的理解有帮助。

2025-04-05 23:54:49 4330 1

皮先生的博客