随笔
文章平均质量分 83
HelloLLMs
技术存档点~ Paper阅读转化点^_^
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[强化学习杂记] 从数学角度理解贝尔曼最优公式为什么是greedy?
本文讨论了贝尔曼最优公式的相关概念。首先定义了最优策略的存在条件,提出了关于最优策略的四个关键问题。通过状态价值下的贝尔曼最优公式,说明了确定性策略下最优动作的选择原理。文中通过数学示例展示了如何求解包含两个未知数的方程,类比说明了求解最优策略的过程。最后论证了在已知动作价值的情况下,选择最大价值动作作为最优策略的合理性。这些内容为理解强化学习中的最优策略求解提供了理论基础。原创 2026-01-05 16:12:25 · 532 阅读 · 0 评论 -
模型训练实用之梯度检查点
以时间换空间,是训练大模型的必备技术。尽管会牺牲部分计算效率,但在显存不足时,它是实现模型训练的唯一可行方案。结合混合精度、梯度累积等技术,可进一步提升资源利用率。通过这种方式,内存占用减少50%,但计算量增加约33%(需额外进行一次前向计算)。,并在反向传播时重新计算未保存的激活值,从而减少内存需求。原创 2025-05-05 15:39:53 · 1082 阅读 · 0 评论 -
load_dataset函数
Hugging Face 的 datasets 库中的 load_dataset 函数是一个核心工具,用于快速加载和处理多种格式的数据集。1.支持多种数据源2.自动处理数据格式。原创 2025-04-22 15:59:57 · 1104 阅读 · 0 评论
分享