- 博客(17)
- 收藏
- 关注
原创 大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?
大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?
2025-04-15 22:40:21
413
原创 大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?
大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?
2025-04-14 23:00:46
740
原创 大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2
大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2
2025-04-14 21:29:18
1009
原创 大模型面经 | 手撕多头注意力机制(Multi-Head Attention)
大模型面经 | 手撕多头注意力机制(Multi-Head Attention)
2025-04-13 21:30:45
315
原创 大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?
大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?
2025-04-11 22:08:28
660
原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题一)
今天给大家分享一些关于大模型面试常见的RAG(检索增强生成)相关面试题,希望对大家的面试有所帮助。
2025-04-09 16:53:03
867
原创 一文搞懂DeepSeek核心技术-MTP(Multi-Token Prediction)
MTP 的核心思想是让模型一次性预测多个 token,以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力,还需要同时具备预测下 n 个token的能力。
2025-04-08 12:38:55
1056
原创 一文搞懂DeepSeek核心技术-GRPO
Deepseek的GRPO(群组相对策略优化)算法是一种创新的强化学习方法,专为提升大型语言模型的推理能力而设计。它通过基于群组的评估方法和相对奖励优化机制,有效增强了模型的推理性能。与传统PPO算法相比,GRPO无需依赖独立价值模型,从而显著降低了内存和计算成本,同时提高了训练过程的稳定性。
2025-04-07 17:15:21
906
原创 一文搞懂DeepSeek核心技术-DeepSeekMoE
DeepSeekMoE 架构是一种精巧的设计,它借鉴了“分而治之”的思想,通过引入专业化的路由专家和通用的共享专家,实现了更精细化、更灵活的处理。创新地提出了无额外损耗负载均衡策略,通过动态调整可学习的偏置项,进一步提升了 MoE 架构的效率和性能。
2025-04-06 12:21:06
1109
原创 一文搞懂DeepSeek核心技术-多头潜在注意力(MLA)
大家好,我是皮先生!!本文将深入剖析模型核心技术-(MLA)的工作原理、技术创新,希望对大家的理解有帮助。
2025-04-05 23:54:49
1310
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人