大模型训练
文章平均质量分 85
高效匠人
AI爱好者 VX:blogsit
【公众号简介】名称:人行机器人未来
探索未来,与AI共舞——在这里,领略人形机器人的魅力,感受智能时代的前沿信息,助你提升个人技能和能力。紧跟机器人科技创新步伐,让我们一起增强生活的幸福感!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
macOS 上快速启动 Open WebUI-模型训练
本文详细介绍了在 macOS 上通过 Docker 快速部署 Open WebUI(原 Ollama Web UI)的完整流程。主要内容包括:安装 Ollama 和 Docker、拉取大语言模型、运行 Open WebUI 容器、访问 Web 界面等步骤。文章提供了清晰的命令行示例,并涵盖了常见问题解决方法。整个过程仅需 5-10 分钟,无需编程基础即可实现本地大模型交互界面。此外还包含进阶配置建议和快速启动清单,帮助用户快速上手使用。原创 2025-11-18 11:39:17 · 366 阅读 · 0 评论 -
FSDP、FSDP2 和 Megatron-LM 是三种主流的分布式训练框架或技术
维度开发方NVIDIA基础框架PyTorch 原生支持自研框架(基于 PyTorch)并行方式主要是数据并行 + 分片混合并行(TP + PP + DP)显存效率高(参数/梯度/优化器分片)极高(多维度分片)训练速度快(尤其是 FSDP2 + compile)非常快(高度优化)易用性较高(PyTorch 风格)较低(需深入理解并行)扩展性支持数百 GPU支持数千 GPU适用场景中大型模型、研究场景超大规模工业训练是否支持编译加速✅ FSDP2 支持。原创 2025-09-17 16:32:17 · 1689 阅读 · 0 评论 -
问题:训练过程中,如果你发现模型在训练集上的表现远远好于在验证集上,可能是什么原因导致的?应该采取哪些措施可以改善这种情况
用户问的是模型在训练集上表现很好,但在验证集上差,这明显是过拟合的问题。首先我得回忆一下过拟合的原因是什么。可能是因为模型太复杂,记住了训练数据的噪声和细节,导致泛化能力差。或者训练数据太少,验证数据分布不同。接下来应该考虑怎么解决。常见的办法有正则化,比如L1/L2,或者Dropout。数据增强也是个方法,增加数据多样性。交叉验证可能帮助调整参数。早停法,在训练时监控验证集损失,及时停止。还有简化模型结构,比如减少层数或神经元数量。检查数据分布是否一致,是否有泄露的情况。原创 2025-06-18 11:25:43 · 488 阅读 · 0 评论
分享