- 博客(11)
- 收藏
- 关注
原创 【强化学习】深度解析 GRPO:从原理到实践的全攻略
GRPO(群组相对策略优化)是一种高效的大语言模型强化学习微调算法,通过组内相对比较和去价值网络设计,显著降低了传统PPO的计算开销。其核心创新在于利用组内响应奖励的归一化比较替代绝对价值估计,结合KL散度惩罚和策略裁剪机制确保训练稳定性。该算法特别适合数学推理、代码生成等复杂任务,能在单卡中等规模模型上高效运行。
2025-07-02 23:14:56
608
原创 【论文笔记】LLaDA——突破传统自回归的文本生成新范式
LLaDA (Large Language Diffusion with mAsking) 模型是一种基于扩散模型 (Diffusion Model) 的大型语言模型,其核心思想借鉴了计算机视觉领域的扩散模型,通过逐步去除掩码来生成文本,是一种突破传统自回归模型逐个生成词元的文本生成新方式。
2025-07-02 10:40:54
489
1
原创 【论文笔记】LLaVA——指令微调赋能多模态大模型
LLaVA 是一种大型多模态模型,通过指令微调将视觉编码器与大型语言模型(LLM)相结合,显著提升了视觉和语言任务的性能,尤其在多模态对话和指令遵循方面表现出色。
2025-04-02 21:29:17
1415
1
原创 【DeepSeek开源周】Day 5:3FS & Smallpond 学习笔记
Fire-Flyer File System(3FS)是一个高性能分布式文件系统,旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供一个共享存储层,从而简化分布式应用程序的开发。
2025-03-20 09:09:48
954
原创 【DeepSeek开源周】Day 4:DualPipe & EPLB 学习笔记
DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次,实现了前向和反向传播的完全重叠,从而大幅减少了流水线空闲时间(Pipeline Bubble),显著提高了计算资源的利用率。EPLB(Expert Parallelism Load Balancer)则是一种专家并行负载均衡算法。通过冗余专家策略和分组限制专家路由,优化了专家并行(EP)中的负载分配,确保不同 GPU 之间的负载均衡,提高训练效率。
2025-03-19 08:15:42
2459
原创 【DeepSeek开源周】Day 3:DeepGEMM 学习笔记
DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库,支持普通和混合专家模型(MoE)分组矩阵乘法,通过简洁的实现和即时编译技术,实现了高性能和易用性。官方开源代码链接:https://github.com/deepseek-ai/DeepGEMM
2025-03-18 09:31:28
1009
原创 【DeepSeek开源周】Day 2:DeepEP 学习笔记
DeepEP 是由DeepSeek专为Mixture-of-Experts (MoE) 和专家并行 (Expert Parallelism, EP)设计的高效通信库。它提供了高吞吐量和低延迟的全对全(all-to-all)GPU内核,这些内核也被称为MoE分发(dispatch)和合并(combine)。该库还支持低精度操作,包括FP8。官方开源代码链接:https://github.com/deepseek-ai/DeepEP
2025-03-17 09:49:55
2458
原创 【论文笔记】SAM 2——革新视频与图像分割的交互式基础模型
SAM 2是一个能够处理图像和视频的统一模型,通过提示驱动的分割任务和流式记忆机制,在视频分割中减少交互次数并提高准确性,同时在图像分割中显著提升速度和精度。
2025-03-16 08:43:49
1247
1
原创 【DeepSeek开源周】Day 1:FlashMLA 学习笔记
FlashMLA是DeepSeek专为H架构的GPU设计的的高效MLA解码内核,优化了可变长度序列的多头潜在注意力机制。官方开源代码链接:https://github.com/deepseek-ai/FlashMLA
2025-03-15 15:48:05
2637
原创 【论文笔记】GenEx——具身智能的想象式探索
Genex 是一个能够从单张图像生成一个完全可探索的360° 3D世界,允许智能体通过对三维环境的动态生成与探索,模拟人类对世界的感知与理解,在其生成的想象引导下规划复杂具身世界探索的系统,这为智能体在复杂环境中的决策提供了新的视角。
2025-03-15 09:38:33
1205
1
原创 【论文笔记】Omni-Scene——以自我为中心稀疏视图场景重建的全高斯表征
Omni-Scene: 采用 Omni-Gaussian 表示法,通过结合基于像素和基于体积高斯表示的优势,实现了以自我中心的稀疏视图场景下高保真的三维重建,并支持多模态三维场景生成。
2025-03-14 15:21:48
1278
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人