三、TorchRec中的Optimizer

最新推荐文章于 2025-05-22 16:41:47 发布

记得多吃点

最新推荐文章于 2025-05-22 16:41:47 发布

阅读量880

点赞数 20

分类专栏：推荐算法文章标签：推荐算法 python pytorch

本文链接：https://blog.youkuaiyun.com/Lyg970112/article/details/147154112

版权

6 篇文章

订阅专栏

TorchRec中的Optimizer

TorchRec 模块提供了一个无缝 API，用于在训练中融合后向传递和优化器步骤，从而显着优化性能并减少使用的内存，同时还可以在将不同的优化器分配给不同的模型参数方面提供粒度。

在这里插入图片描述

1、梯度生成（Output Gradient）
- 来自模型前向传播的输出梯度（如损失函数的梯度），对应具体样本（Sample 1 和 Sample 2）
- Sample 1 的梯度可能包含 row 1、row 2和 row 6 的嵌入梯度
- Sample 2 的梯度可能包含 row 1、row 3 和 row 6 的嵌入梯度
2、梯度排序（Gradient Sorting）
- 目的：将不同样本中相同行（Row）的梯度合并到一起，便于后续聚合
- row 1 的梯度来自 Sample 1 和 Sample 2
- row 6 的梯度也来自 Sample 1 和 Sample 2
3、梯度聚合（Gradient Aggregation）
- 操作：对相同行的梯度求和（或平均），得到该行的总梯度
- row 1 的总梯度 = Sample 1 的 row 1 梯度 + Sample 2 的 row 1 梯度
- row 6 的总梯度 = Sample 1 的 row 6 梯度 + Sample 2 的 row 6 梯度
4、稀疏优化器（Sparse Optimizer）
- 功能：仅更新非零梯度对应的嵌入参数（稀疏更新），节省计算和内存。
- 只更新 row 1、row 2、row 3、row 6 的嵌入参数，其他行保持不变。

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。