计算复杂度-优快云博客

首先，我们来理解几个关键概念：

流式训练 (Streaming Training): 工业级推荐系统的数据是源源不断产生的。流式训练指的是模型在一个数据流上持续不断地进行训练，而不是像传统方法那样在固定的数据集上进行多轮（epochs）训练。每次训练可能只使用一小批新产生的数据（比如过去一小时的用户行为）。
曝光粒度的训练 (Impression-level Training): 这是传统排序模型（如深度学习时代的DIN, DIEN等）的常见做法。每一次“曝光”（即系统向用户展示一个或多个物品）都会产生一个训练样本。如果一个用户在一次会话中看了100个视频，这就可能产生100个独立的训练样本。每个样本都包含完整的用户历史序列和当前的“目标物品”。
序列转导框架 (Sequence Transduction Framework): 指的是像Transformer这样，将一个输入序列映射到一个输出序列的模型。
生成式训练 (Generative Training): 这是HSTU采用的方法。它不像曝光粒度那样为每个行为都创建一个独立的样本，而是将一个用户的整个行为序列看作一个训练样本。模型的目标是自回归地预测这个序列中的下一个（正向）行为。
$N_u$ : 用户 u 的历史行为序列长度（token数量）。
D: Embedding的维度。

我们来推导为什么曝光粒度训练，每个用户的复杂度是 $O(N_u(N_u^2*D+N_u*D_{iff}*D))$ ,其中 $D_{iff}$ 是MLP的隐藏维度。

假设一个用户有 $N_u$ 个历史行为。在曝光粒度的训练模式下，这 $N_u$ 个行为会产生 $N_u$ 个训练样本。

现在我们分析处理这一个用户所有样本的总计算量：

让我们看第 k 个训练样本，其历史序列长度为 k。 Transformer中Self-Attention的核心计算是三个矩阵乘法：

所以，处理一个长度为 k 的序列，Self-Attention的开销主要是 $O(k^2*D)$ 。

现在，我们要处理从 k=1 到 k= $N_u$ 的所有样本。总计算量是把所有样本的开销加起来：

$Total Attention Cost=\sum_{k=1}^{N_u}O(k^2*D)=O(D)\sum_{k=1}^{N_u}k^2$

根据平方和公式 $\sum_{k=1}^{N_u} k^2=\frac{n(n+1)(2n+1)}{6}$ ，我们知道 $\sum_{k=1}^{N_u}k^2$ 的复杂度是 $O(N_u^3)$ 。所以，Self-Attention部分的总开销是 $O(N_u^3*D)$ 。

Pointwise MLP层（也叫Feed-Forward Network）通常是两个全连接层。

第一个FC层：
- Input 维度 [k, D]，W_1 维度 [D, 4D]（通常中间层会扩大4倍）。
- 计算复杂度为 $O(k*D*4D)=O(k*D^2)$ 。
第二个FC层：
- Input 维度 [k, 4D]，W_2 维度 [4D, D]。
- 计算复杂度为 $O(k*4D*D)=O(k*D^2)$ 。