自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

皮先生的博客

共同成长,一起进步!!!

  • 博客(17)
  • 收藏
  • 关注

原创 大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?

大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?

2025-04-15 22:40:21 413

原创 大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?

大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?

2025-04-14 23:00:46 740

原创 大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2

大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2

2025-04-14 21:29:18 1009

原创 大模型面经 | 手撕多头注意力机制(Multi-Head Attention)

大模型面经 | 手撕多头注意力机制(Multi-Head Attention)

2025-04-13 21:30:45 315

原创 大模型面经 | DeepSeek-R1中提到的知识蒸馏是什么?

大模型面经 | DeepSeek-R1中提到的知识蒸馏是什么?

2025-04-12 22:28:56 696

原创 大模型面经 | 如何解决大模型幻觉问题?

大模型面经 | 如何解决大模型幻觉问题?

2025-04-12 15:45:33 1059

原创 ​​大模型面经 | 为什么会出现大模型幻觉问题?

​​大模型面经 | 为什么会出现大模型幻觉问题?

2025-04-11 22:34:22 331

原创 大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?

大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?

2025-04-11 22:08:28 660

原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题三)

在使用RAG时候,有哪些优化策略?

2025-04-10 16:14:37 1145

原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题二)

在使用RAG时候,有哪些优化策略?

2025-04-09 23:57:45 875

原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题一)

今天给大家分享一些关于大模型面试常见的RAG(检索增强生成)相关面试题,希望对大家的面试有所帮助。

2025-04-09 16:53:03 867

原创 一文搞懂DeepSeek核心技术-MTP(Multi-Token Prediction)

MTP 的核心思想是让模型一次性预测多个 token,以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力,还需要同时具备预测下 n 个token的能力。

2025-04-08 12:38:55 1056

原创 一文搞懂DeepSeek核心技术-GRPO

Deepseek的GRPO(群组相对策略优化)算法是一种创新的强化学习方法,专为提升大型语言模型的推理能力而设计。它通过基于群组的评估方法和相对奖励优化机制,有效增强了模型的推理性能。与传统PPO算法相比,GRPO无需依赖独立价值模型,从而显著降低了内存和计算成本,同时提高了训练过程的稳定性。

2025-04-07 17:15:21 906

原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(二)

大模型面经 | 春招、秋招算法面试常考八股文附答案(二),非常详细,建议收藏!!

2025-04-07 16:18:59 667

原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(一)

大模型面经 | 春招、秋招算法面试常考八股文附答案(一),非常详细,建议收藏!!

2025-04-06 15:42:22 791

原创 一文搞懂DeepSeek核心技术-DeepSeekMoE

DeepSeekMoE 架构是一种精巧的设计,它借鉴了“分而治之”的思想,通过引入专业化的路由专家和通用的共享专家,实现了更精细化、更灵活的处理。创新地提出了无额外损耗负载均衡策略,通过动态调整可学习的偏置项,进一步提升了 MoE 架构的效率和性能。

2025-04-06 12:21:06 1109

原创 一文搞懂DeepSeek核心技术-多头潜在注意力(MLA)

大家好,我是皮先生!!本文将深入剖析模型核心技术-(MLA)的工作原理、技术创新,希望对大家的理解有帮助。

2025-04-05 23:54:49 1310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除