- 博客(26)
- 收藏
- 关注
原创 【强化学习】DAPO 论文解读
DAPO通过四大创新技术(Clip-Higher、动态采样、Token级损失、超长奖励塑形),在AIME 2024基准上实现50分的开源最优成绩,训练效率提升50%。其开源系统为行业提供了可复现的大规模RL解决方案。
2025-03-28 17:40:15
709
原创 【大模型】GRPO:从 PPO 到群体相对策略优化的进化之路
在大模型(LLM)的对齐任务中,如何高效地优化模型的生成策略,同时保持训练的稳定性和高效性,一直是一个关键问题。而 GRPO(Group Relative Policy Optimization,组相对策略优化)作为一种新颖的策略优化方法,凭借其在高效性和过程监督上的表现,逐渐获得更多关注。下面,我们将深入剖析从PPO 到 GRPO 的理论原理、数学公式、实现步骤和代码示例。
2025-03-28 17:36:09
1035
原创 【Models】Transformer 之 自回归、自编码、序列到序列
自然语言处理(NLP)的核心挑战是建模序列数据的依赖关系。自2010年代以来,三大范式主导了序列模型的发展:**自编码(Autoencoding)**、**自回归(Autoregressive)**和**序列到序列(Seq2Seq)**。它们如同光谱的三个端点:自回归聚焦单向生成,自编码擅长双向理解,Seq2Seq则架起输入输出的桥梁。本文将深入解析三者的技术本质、架构差异及应用边界。
2025-03-27 16:22:48
997
原创 【大模型】大模型知识蒸馏 综述解读(Knowledge Distillation of Large Language Models)
知识蒸馏的(论文)方法总结。归纳了通过数据(如指令、对话、多模态)和训练方法(SFT、RL、数据增强),将复杂技能(如对齐、工具使用、多模态)蒸馏到开源模型的核心框架,附典型模型示例(如Alpaca、LLaVA)。
2025-03-27 13:11:51
1094
原创 【大模型】Deepseek V3-0324
2025年3月24号,也就是周一,Deepseek突然发布他们 DeepSeek V3 的新版本模型 DeepSeek-V3-0324。目前还有技术报告只有一个news和模型,不过从效果上来看也是很炸裂的,对标都是最新的闭源模型的前排选手。主要改进点有:推理性能大幅提升,更强的前端开发技能,以及更智能的工具使用能力。我们一起来看看吧。
2025-03-26 12:21:56
651
原创 【模型压缩+推理加速】知识蒸馏综述解读(Knowledge Distillation)
最近Deepseek R1的技术报告中,训练部分提到使用了知识蒸馏,就像系统性的看看蒸馏算法的原理。看了很多的博客,很多都没有详细把知识蒸馏系统的讲清楚。我们还是读一下这篇 2021年的综述 “Knowledge Distillation: A Survey”。虽然这篇文章不是针对大模型的知识蒸馏综述,但可以作为大模型蒸馏学习的入门。这篇综述写的非常详细,系统性总结了知识蒸馏的很多基础知识,比如:知识的类型、蒸馏方案、师生结构、蒸馏算法。以及还有详细的对比效果,充分说明各种蒸馏算法的优劣。
2025-03-25 20:55:56
1090
原创 【强化学习】重要性采样(Importing Sample)
在强化学习中,策略评估与优化通常依赖数据采样。当直接从目标策略(Target Policy)采样面临高成本、高风险或低效率时(如机器人控制、医疗决策场景),离策略(Off-Policy)学习成为必然选择。重要性采样(Importance Sampling, IS)作为离策略学习的核心工具,允许利用行为策略(Behavior Policy)生成的历史数据,通过权重修正实现对目标策略的价值估计。其核心挑战在于解决分布差异:**如何用旧分布的数据估计新分布的期望?**
2025-03-23 20:02:38
396
原创 【大模型】大模型(Qwen2.5)_GRPO训练教程_AutoDL
本教程主要目的是完成 在的GPU服务器 4090 上,对 大模型(Qwen2.5_Coder_3B)进行GRPO训练,所使用的数据集是 “gms8k”。当然,也可以使用其他类型的GPU,实现训练过程中 24G的显存也会用到了7G, 模型可以完美切换到其他Qwen模型进行微调,我这里只是为了演示选择了较少的3B模型。
2025-03-20 14:10:54
786
原创 【大模型】Deepseek-Math (GRPO)论文解读
DeepSeekMath 通过大规模数学预训练和高效强化学习(GRPO)算法,显著提升了开源模型的数学推理能力,在 MATH 基准上首次突破 50% 准确率,接近闭源模型水平。其方法论为开源社区提供了重要参考,未来在数据质量和算法效率上仍有优化空间。fill:#333;color:#333;color:#333;fill:none;DeepSeekMath数学推理模型研究研究背景与目标核心贡献方法与技术细节数学推理挑战研究目标大规模数学预训练强化学习优化DeepSeekMath语料库构建。
2025-03-19 17:44:49
859
原创 【大模型】Deepseek R1论文解读
文章介绍了通过强化学习提升大语言模型推理能力的研究,提出DeepSeek-R1-Zero和DeepSeek-R1模型,探索了强化学习在模型训练中的应用,展示了模型在多种任务上的优异性能,并讨论了研究中的经验和未来方向。fill:#333;color:#333;color:#333;fill:none;大语言模型推理能力研究研究背景创新模型方法实验评估研究讨论研究结论后训练创新模型蒸馏成果直接应用RL开发DeepSeek-R1-Zero提出DeepSeek-R1训练流程。
2025-03-13 13:26:06
1022
原创 【大模型】Deepseek V3 论文解读
文章介绍了具有6710亿参数的混合专家模型DeepSeek-V3,通过创新架构、高效训练和优化策略,在性能上超越开源模型且与闭源模型相当,同时保持较低训练成本。fill:#333;color:#333;color:#333;fill:none;研究背景模型架构训练基础设施预训练后训练研究结论大语言模型发展迅速,开源模型追赶闭源模型DeepSeek-V3旨在提升开源模型能力,平衡性能和成本基础架构:基于Transformer框架,采用MLA和DeepSeekMoE架构。
2025-03-13 13:17:11
613
原创 【强化学习】03.DQN
深度 Q 学习(Deep Q - Learning,简称 DQN)是强化学习领域中结合了与的算法。其核心目标在于借助深度神经网络来近似 Q 函数,从而克服传统 Q - Learning 在处理大规模或连续状态空间时所面临的计算难题。DQN 的核心思想是采用深度神经网络(通常为卷积神经网络或者多层感知机)作为函数逼近器,用以估计动作 - 值函数(action - value function),也就是 Q 函数。该网络的输入为环境的状态,输出则是每个可能动作的预期奖励。
2025-03-12 16:43:06
931
原创 【强化学习】02.SARSA
SARSA(State - Action - Reward - State - Action)是一种学习的在线强化学习算法。它通过智能体与环境的交互来学习动作价值函数(Q 函数),该函数用于评估在给定状态下采取特定动作的价值。
2025-03-12 16:39:25
837
原创 【强化学习】01.Q-Learning
Q-Learning 是一种基于值的强化学习算法,借助Qsa来预估在给定状态s下采取动作a的期望回报。在更新时,Q-Learning 采用贪婪策略,即始终选取最大的Q值。
2025-03-12 16:36:29
630
原创 【多模态大模型】QWen2.5 VL 论文解读
回到文章“Qwen2.5-VL Technical Report”,文章介绍了Qwen2.5-VL视觉语言模型,通过优化架构、改进训练方法和扩充数据,提升多模态理解与交互能力,在多任务中表现出色。研究背景与问题:大视觉语言模型(LVLMs)整合视觉感知和自然语言处理,推动了人工智能在多领域的发展,但当前模型存在计算复杂、上下文理解有限、细粒度视觉感知差和处理不同长度序列表现不稳定等问题。Qwen2.5-VL旨在解决这些问题,探索细粒度感知能力,增强多模态推理,打造更强大的视觉语言模型。贡献架构创新优化。
2025-03-12 13:54:01
825
原创 【大模型】QWen2.5 论文解读
重点解决的问题:旨在打造更优的大语言模型,解决过往模型在数据、规模、应用等方面的局限,提升模型的通用性、准确性和效率,以满足多样化的使用需求,推动大语言模型在各领域的应用与发展。创新点数据处理创新:如Figure 1所示,预训练数据从7万亿token扩展到18万亿token,通过优化数据筛选、融入高质量领域数据、生成合成数据以及平衡数据分布等手段,提升数据质量。利用Qwen2-Instruct模型进行数据质量过滤和内容分类,提高数据的质量和多样性。训练方法创新。
2025-03-12 12:10:18
1193
原创 【大模型】大模型的训练
然而,这些大语言模型的训练过程却非常复杂,涉及到海量数据的预处理、模型架构设计以及大规模分布式训练等多方面内容。对齐(Alignment)是大语言模型训练的最后阶段,目的是在模型完成预训练和微调之后,通过引入人类反馈,使模型的行为更加符合人类的期望。微调通过有监督学习方法,让模型适配具体任务的输入输出要求,并优化模型的性能。对齐任务的核心是使用人类反馈数据来训练奖励模型,并利用奖励模型优化生成模型的行为。预训练是大语言模型的核心阶段,其目标是学习语言的结构、知识和语义,从而为后续任务提供强大的基础。
2025-03-12 09:58:40
674
原创 【强化学习】基于 Ray 的强化学习分布式训练
在一些复杂任务中,RLlib 的默认训练器可能无法满足需求。Ray 支持自定义分布式架构,我们可以通过ray.remote分布式环境采样器for _ in range(100): # 限制每次 episode 最大步数if done:break集中式学习器# 使用采样数据更新策略分布式训练架构# 启动多个采样器# 启动集中式学习器# 分布式训练Ray 强大的分布式计算能力为强化学习的高效训练提供了极大的便利。通过简单的 API,开发者可以轻松构建从单机到集群的分布式训练架构。
2025-01-22 19:15:45
940
原创 【强化学习】07.近端策略优化(PPO) 算法原理
PPO(Proximal Policy Optimization)是一种强化学习算法,是策略优化方法的现代改进版本。它结合了策略梯度方法的优势,同时通过限制策略更新幅度,保持训练的稳定性和高效性。PPO 是一种高效且稳定的强化学习算法,它在策略优化中通过截断约束限制策略更新幅度,兼具简洁性和高性能。在与 DQN、传统策略梯度、Actor-Critic 和 TRPO 的对比中,PPO 在稳定性和样本效率方面表现优异,是现代强化学习应用的主流算法之一。TRPO 通过限制每次策略更新的幅度,保证策略更新在。
2025-01-20 17:29:27
1786
原创 【强化学习】06.信任区域策略优化(TRPO) 算法原理
在代码中,TRPO算法被应用于经典的强化学习任务任务目标控制小车的左右移动以保持杆子的平衡,尽可能延长杆子直立的时间。环境特征状态空间:由4个连续变量组成:小车位置;小车速度;杆子角度;杆子角速度。动作空间:包含2个离散动作:向左施加推力;向右施加推力。奖励函数:每个时间步杆子保持直立,奖励为+1。终止条件杆子角度超过阈值;小车偏离边界。
2025-01-19 15:52:04
1110
原创 【强化学习】05.Actor-Critic 算法原理
在代码中,Actor-Critic算法被应用于经典的强化学习任务。目标:通过控制推力来保持杆子直立尽可能长时间。状态空间:由4个连续变量组成:小车位置;小车速度;杆子角度;杆子角速度。动作空间:包含2个离散动作:向左施加推力;向右施加推力。奖励函数:每个时间步杆子保持直立,奖励为+1。终止条件杆子角度过大;小车偏离屏幕边界。Actor-Critic算法通过学习状态的价值函数和策略网络,能够高效地解决这一控制问题,实现稳定的杆子平衡。
2025-01-19 15:50:25
1269
原创 【强化学习】04.策略梯度(Policy Gradient)算法原理及对比分析
它的核心思想是通过参数化一个策略函数(policy),直接对策略的参数进行优化,使得在特定环境中累积的期望回报最大化。与值函数方法(如Q-learning或DQN)不同,策略梯度方法不显式地学习状态值函数或动作值函数,而是直接学习一个参数化的概率分布,用于决定在给定状态下采取哪种动作。策略梯度方法是一种直接优化策略的强化学习算法,能够很好地解决连续动作问题和复杂策略建模问题。这种任务对算法的探索能力和状态空间建模能力提出了要求,策略梯度方法通过建模动作概率分布,能够高效地完成这一任务。
2025-01-19 11:28:19
899
原创 【python 教程】02.其他数据类型( 序列、集合、字典、有序字典、计数器、矩阵)
02.其他数据类型( 序列、集合、字典、有序字典、计数器、矩阵)
2022-07-18 21:35:39
767
1
原创 【python 教程】01.基本数据类型( 整数、浮点数、复数、布尔值、空值、字符串)
python 基本数据类型( 整数、浮点数、复数、布尔值、空值、字符串)
2022-07-18 00:11:30
720
原创 docker常用命令
下面介绍一些docker的常用命令。如果是sudo权限,请自行在docker和脚本前加上。这里为了显示简介,就没有加。1 docker pull(拉镜像)docker images # 显示所有docker镜像docker pull nvidia/cuda:8.0-cudnn7-devel # 拉镜像2 docker run(运行容器)nvidia-docker run -it -d --name=test_docker \ # docker name --device=.
2020-11-13 19:59:30
843
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人