自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 2.3 马尔可夫过程

在强化学习(RL)里,我们常把“环境”抽象成一个马尔可夫决策过程(MDP)。与**多臂老虎机(bandit)**问题相比,MDP 显式包含“状态”以及状态之间的转移机制,能描述“随时间演化”的复杂互动系统(例如机器人导航、库存管理、对话系统等)。在任何实际项目中,第一步往往是把问题抽象成一个 MDP:定义状态空间、动作空间、转移概率、奖励函数与折扣系数等。为了做到这点,我们先从更基础的“马尔可夫过程”讲起。随机过程研究的是“随时间变化”的随机现象。用一组随机变量表示系统在不同时间的状态:{St}t=0∞,

2025-08-27 00:49:02 605

原创 2.2 多臂老虎机(强化学习经典问题)

在第 1 章中我们已经了解到,强化学习的核心思想是:智能体(agent)通过与环境(environment)不断交互,在试错(trial-and-error)的过程中学习如何获得更高的长期奖励。在正式深入强化学习之前,我们先来理解一个更为简化的经典问题——多臂老虎机问题(Multi-Armed Bandit, MAB)。这个问题可以看作是强化学习的“入门版”:它没有复杂的状态转移,只有动作(action)和奖励(reward),但却完美体现了强化学习中最经典的矛盾——探索(exploration)与利用(

2025-08-21 16:29:32 1149

原创 2.1 强化学习基础(概念、流程、目标)

强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过来学习如何采取最优行为,从而最大化长期累积奖励。与有监督学习不同,强化学习不仅关注预测,还强调决策与反馈循环。

2025-08-20 22:03:42 1720 1

原创 1.7 大模型监督微调(SFT)训练策略

上一节介绍了SFT训练参数的常见设置,本节涵盖四种常见的 SFT 训练策略与多轮对话(multi-turn)专项提升的数据与损失函数(loss)设计。

2025-08-20 21:20:08 1071

原创 1.6 大模型监督微调(SFT)的参数设置和训练技巧

前面的小节详细介绍了大模型SFT的数据部分,包括合成、过滤、多样性等等,数据极大的影响着大模型SFT的效果。介绍完数据从这一节开始具体介绍大模型SFT的过程,包括参数设置、训练策略、训练技巧、效果评估等等。

2025-08-15 16:16:52 1361

原创 1.5 SFT监督微调训练数据的多样性

数据形式不能让模型轻易找到规律,关键信息在 prompt 中的位置分布必须足够随机。这样可避免模型在训练中出现Bias,而是能完整理解 prompt 的全貌。这对类型的任务尤为重要。数据多样性应当从用途、形式、语义三个维度综合设计。用途多样性确保模型在不同任务场景下都能胜任。形式多样性防止模型依赖固定模式,从而提升泛化能力。语义多样性保证模型知识覆盖广度和表达灵活性。

2025-08-14 16:03:32 918

原创 1.4 SFT数据的过滤

特性IFD 过滤MoDS 过滤关注点指令执行难度质量、多样性、必要性核心指标rθQArθ​QA比值奖励模型评分、K-Center-Greedy数据来源初始训练后自我评估预设奖励模型评估应用场景过滤简单、无效或重复指令构建高质量、覆盖面广的数据集IFD 过滤更偏向利用模型自身的判断能力,找出真正能锻炼模型指令跟随能力的训练样本。MoDS 过滤更注重客观的外部质量评分和数据分布覆盖,确保最终的数据集既高质量又多样化。

2025-08-14 14:59:33 620

原创 1.3 大模型监督微调(SFT)的数据构造与数据合成

在大型语言模型(LLM)的训练中,是模型能力突破的关键瓶颈。现实世界的数据往往存在分布不均、覆盖不全、标注成本高等问题。数据合成技术通过,成为解决这一难题的核心方案。训练样本被构建为< Prompt , Answer >

2025-08-13 17:23:58 1110

原创 1.2 大模型监督微调(SFT)的数据要求

数据飞轮(Data Flywheel)是指通过持续收集用户真实交互数据、不断优化模型、再将改进后的模型投入使用的正向循环系统。它的核心思想是让数据和模型相互促进,形成越用越强的良性循环。数据分析工具和机器学习算法可用于发现数据中的模式、趋势和关联关系。根据数据应用带来的改进和收益,不断增强数据的质量和数量。收集到的数据需要存储和处理,以便后续的分析和应用。将分析得到的洞察应用到实际场景中,创造实际价值。下一节将详细介绍数据合成、过滤等具体方案。通过分析数据,提取有价值的信息和洞察。

2025-08-13 16:19:39 616

原创 1.1SFT监督微调和大模型预训练的区别

需决定是对所有回答(每轮)计算 Loss,还是仅对最后一轮回答计算 Loss。)显式划分文本结构,帮助模型理解上下文逻辑。[回答]孙权刘备联军[/回答][背景]三国演义中[/背景][事件]赤壁之战[/事件]

2025-08-13 15:02:57 530 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除