RankNet

最新推荐文章于 2023-07-04 20:22:52 发布

原创最新推荐文章于 2023-07-04 20:22:52 发布 · 833 阅读

2 ·

CC 4.0 BY-SA版权

ML整理笔记专栏收录该内容

12 篇文章

订阅专栏

RankNet

RankNet 论文的笔记。原文：
Learning to rank using gradient descent.

模型

特征 $\mathbf x_i \in \mathbb R^d$
模型函数： $f: \mathbb R^d \to \mathbb R$

若 $f(\mathbf x_i) > f(\mathbf x_j)$ 则表示模型预测 i 排在 j 前面: $\mathbf x_i \triangleright \mathbf x_j$ 。

后验概率 $P_{ij} = P(\mathbf x_i \triangleright \mathbf x_j)$ 用如下形式：

P i j = 1 1 + e - o i j o i j \equiv o i - o j o i \equiv f (x i)

$P_{ij} = \frac{1}{1 + e^{-o_{ij}}} \\ o_{ij} \equiv o_i - o_j \\ o_i \equiv f(\mathbf x_i)$

损失函数使用交叉熵的形式，并根据上面的定义变形为：

C i j \equiv C (o i j) = - P ¯ i j log P i j - (1 - P ¯ i j) log (1 - P i j) = - P ¯ i j o i j + log (1 + e o i j)

$C_{ij} \equiv C(o_{ij}) = -\bar P_{ij} \log P_{ij} - (1 - \bar P_{ij}) \log (1-P_{ij}) \\ = -\bar P_{ij} o_{ij} + \log (1 + e^{o_{ij}})$

其中根据样本中两个 item 排序的在前、在后和同序关系，目标取值为：

P ¯ i j = {1, 0.5, 0}

$\bar P_{ij} = \{1, 0.5, 0\}$

关于假设合理性的讨论

论文中已经证明上述模型假设的一致性、传递性。由于 $o_{ik} = o_i - o_j + (o_j-o_k) = o_{ij} + o_{jk}$ ，则容易得到：

P i j = P i j P j k 1 + 2 P i j P j k - P i j - P j k

$P_{ij} = \frac{P_{ij}P_{jk}}{1 + 2P_{ij}P_{jk}- P_{ij} - P_{jk}}$

自洽性
上式满足 $0 < P_{ij} < 1$ .
传递性：
在概率等于 $p\in \{0, 0,5, 1\}$ 的时候，等号具有传递性：

$P (A ▹ B) = p, P (B ▹ C) = p, \Rightarrow P (A ▹ C) = P$ $P(A \triangleright B) = p, \quad P(B \triangleright C) = p, \\ \Rightarrow \quad P(A \triangleright C) = P$

$P < 0.5$ 时，小于号传递性：

$P (A ▹ B) = p, P (B ▹ C) = p, \Rightarrow P (A ▹ C) < P$ $P(A \triangleright B) = p, \quad P(B \triangleright C) = p, \\ \Rightarrow \quad P(A \triangleright C) < P$

$0.5<P < 1$ 时，大于号传递性：

$P (A ▹ B) = p, P (B ▹ C) = p, \Rightarrow P (A ▹ C) > P$ $P(A \triangleright B) = p, \quad P(B \triangleright C) = p, \\ \Rightarrow \quad P(A \triangleright C) > P$

以上的传递不限于两步，经过多步仍然满足。

优模型化

$o_i$ 的取值使用神经网络模型

o i = g 3 ⎛ ⎝ ⎜ ⎜ \sum j w 32 j g 2 (\sum k w 21 j k x k + b 2 j) + b 3 i ⎞ ⎠ ⎟ ⎟ \equiv g 3 i

$o_i = g^3\left( \sum_j w^{32}_j g^2\left(\sum_k w^{21}_{jk} x_k + b^2_j\right) +b^3_i \right) \equiv g^3_i$

其中 $g^3, g^2, w^{32}, w^{21},b^2, b^3$ 分别为第三、第二层激活函数，第三、第二层的权重、第二、第三层偏置。

定义一个 pair 样本的损失为 $l(o_2-o_1)$ (论文中用 $f$ 表示，这里换成 $l$ )，则参数的梯度 $\partial_\alpha l = (\partial_\alpha o_2 - \partial_\alpha o_1)l'$ 。注意 $\partial_\alpha o_2 = \partial_\alpha f(\mathbf x_2)$

\partial l \partial b 3 = l' (g' 3 (x 2) - g' 3 (x 1)) \equiv Δ 32 - Δ 31 \partial l \partial w 32 i = Δ 32 g 2 i (x 2) - Δ 31 g 2 i (x 1) \partial l \partial b 2 i = Δ 32 w 32 i g' 2 i (x 2) - Δ 31 w 32 i g' 2 i (x 1) \equiv Δ 2 2, i - Δ 2 1, i \partial l \partial w 21 i j = Δ 2 2, i x 2, j - Δ 2 1, i x 1, j

$\frac{\partial l}{\partial b^3} = l'(g'^3(\mathbf x_2) - g'^3(\mathbf x_1)) \equiv \Delta^3_2 - \Delta^3_1\\ \frac{\partial l}{\partial w^{32}_i} = \Delta^3_2 g^2_i(\mathbf x_2) - \Delta^3_1 g^2_i(\mathbf x_1) \\ \frac{\partial l}{\partial b^2_i} = \Delta^3_2 w^{32}_i g'^2_i(\mathbf x_2) - \Delta^3_1 w^{32}_i g'^2_i(\mathbf x_1) \equiv \Delta^2_{2,i} - \Delta^2_{1,i} \\ \frac{\partial l}{\partial w^{21}_{ij}} = \Delta^2_{2,i} x_{2,j} - \Delta^2_{1,i} x_{1,j} \\$

所有参数都可以根据上面的梯度，用梯度下降法来优化。