weixin_41720057-优快云博客

原创 007-性能评估与应用场景

fill:#333;color:#333;color:#333;fill:none;性能评估方法标准基准测试人类评估实际应用评估数学推理基准编程基准科学推理基准通用能力基准专家评估用户研究实际任务完成率用户满意度标准基准测试：使用公认的基准测试集评估模型在特定任务上的表现。人类评估：由专家和普通用户评估模型输出的质量和有用性。实际应用评估：在真实应用场景中测试模型的表现。推理能力突破：在数学、编程和科学推理等领域达到或接近最先进水平。训练方法创新。

2025-02-28 00:57:16 836

原创 006-知识蒸馏技术

知识蒸馏（Knowledge Distillation）是一种模型压缩和知识转移技术，旨在将大型复杂模型（称为教师模型）的知识转移到更小、更高效的模型（称为学生模型）中。这一技术由Geoffrey Hinton等人在2015年提出，已成为深度学习领域的重要方法。

2025-02-28 00:56:45 760

原创 005-DeepSeek-R1多阶段训练流程

DeepSeek-R1采用了三阶段训练流程，每个阶段都有明确的目标和技术方法：fill:#333;color:#333;color:#333;fill:none;阶段1: 可读性增强阶段2: 一致性训练阶段3: 知识蒸馏最终模型: DeepSeek-R1阶段1: 可读性增强：通过监督微调，提高模型输出的可读性和结构化程度。阶段2: 一致性训练：使用强化学习，增强模型输出的一致性和可靠性。阶段3: 知识蒸馏：将大型模型的能力蒸馏到较小的模型中，提高效率和实用性。

2025-02-28 00:55:47 718

原创 004-DeepSeek-R1-Zero训练过程

DeepSeek-R1-Zero的一个重要创新是直接在基础模型（DeepSeek-V3-Base）上应用强化学习，而不是先进行监督微调（SFT）。这打破了传统的"预训练→监督微调→强化学习"范式，展示了强化学习可以独立驱动模型发展出复杂的推理能力。

2025-02-28 00:55:16 491

原创 003-群组相对策略优化(GRPO)

群组相对策略优化（Group Relative Policy Optimization, GRPO）是DeepSeek-R1中引入的一种创新强化学习算法，专门设计用于提升大语言模型的推理能力。GRPO是对传统近端策略优化（Proximal Policy Optimization, PPO）算法的改进，通过评估一组响应之间的相对表现来优化模型，而不是依赖于外部评估器对每个响应进行绝对评分。GRPO核心思想相对评估群组优化自适应学习比较同一问题的多个响应不依赖绝对奖励值同时优化一组响应提高样本效率自动调整学习步

2025-02-28 00:54:40 921

原创 002- 强化学习基础

策略优化是强化学习中的一类方法，直接优化策略函数，而不是通过值函数间接优化。在LLM的上下文中，策略就是语言模型本身，它决定了给定输入后生成什么文本。

2025-02-28 00:54:03 747

原创 001-DeepSeek-R1概述

DeepSeek-R1代表了大语言模型推理能力提升的重要进展。通过创新的强化学习方法，它展示了如何使模型自然地发展出复杂的推理能力，而不仅仅依赖于监督学习。进一步提升工程导向的编码任务性能探索更高效的强化学习算法改进知识蒸馏技术，使小型模型获得更强的推理能力扩展到更多领域的推理任务DeepSeek-R1的开源贡献为研究社区提供了宝贵的资源，推动了大语言模型推理能力的整体发展。

2025-02-28 00:53:29 530

weixin_41720057的博客