发散阅读、拓宽思路【PageRank、Tf-Idf、协同过滤、分布式训练、StyleTransfer、Node2vec】

最新推荐文章于 2024-03-08 00:06:25 发布

原创最新推荐文章于 2024-03-08 00:06:25 发布 · 684 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#PageRank #TF-IDF #协同过滤 #风格迁移 #Node2Vec

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文深入解析PageRank算法原理及其计算方法，探讨TF-idf在信息检索中的应用，协同过滤推荐系统矩阵分解技巧，模型分布式训练策略，及图像风格迁移的经典与创新算法，覆盖NLP到计算机视觉的广泛技术领域。

刚工作一年，做的内容算是比较单一，基本是NLP相关，当然主流的算法、模型还是基本都了解，偶尔发散的看一些东西，算是留个印象，日积月累，可能以后会用到或者有所启发。

这种情况下，一般看的就没那么细节，留下个大致感觉，后续需要用时深究。

1. PageRank

1.1 PageRank的两个假设

假设1，将各个网页做成一个图模型中（每个网页是其中的一个节点），如果一个页面节点收到到的入链数量越多，这个页面越重要；

假设2，指向某节点A的入链质量（分数）不同，质量（分数）高的页面节点，会传递给A更多的分数。

1.2 重点：
1.PageRank计算出的每个网页/节点的分数和用户输入的query没有关系；
2.假设某搜索引擎完全采用PageRank的网页得分来进行排序，那搜索引擎表现如何？对于任意query，返回的结果都相同，返回PageRank得分最高的页面。
3.这种可以通俗理解为与query无关的先验概率结果，而在此基础上考虑query相关的为条件概率结果？

1.3 核心公式：

$Pr(A)=(Pr(B)L(B)+Pr(C)L(C)+Pr(C)L(C)...)∗q+1−qPr(A)=(\frac{Pr(B)}{L(B)}+\frac{Pr(C)}{L(C)}+\frac{Pr(C)}{L(C)}...)*q+1-q$
（1）其中 $P r (B)$ 表示页面B的得分，比如0.7，
（2） $L (B)$ 表示节点的出度（指向外的边的个数），比如节点 $B$ 指向节点 $D$ 和 $E$ ，那么 $L (B)$ 为2，
（3） $q$ 叫阻尼系数，主要是为了让某些孤立网页（没有入度的网页）有 $1 - q$ 这样一个基础的分数，你可以理解为 $1 - q$ 为所有网页节点的“底薪”，公式的前一部分是“绩效”，整体为页面A的“工资”。（较为官方的解释为，在任意时刻，用户到达某页面后并继续向后浏览的概率）

对于上述的核心公式还有另外一个版本（至于为啥我还没时间去细致研究，回头有空了看下为啥这么设计，查了些资料， $1 - q$ 表示到新页面的概率，除以 $N$ 表示访问具体单个页面的概率？深层次的影响待查，我有空搞了update）
$Pr(A)=(Pr(B)L(B)+Pr(CL(C)+Pr(C)L(C)...)∗q+(1−q)/NPr(A)=(\frac{Pr(B)}{L(B)}+\frac{Pr(C}{L(C)}+\frac{Pr(C)}{L(C)}...)*q+(1-q)/N$

1.4 如何计算：
1.4.1 方式1
将所有网页的 $P r$ 值初始化，利用公式不断迭代，最终稳定下来（嘿嘿，收敛性是否一定成立呢，如何证明呢，有空了研究update）
1.4.2 方式2

上述公式矩阵化，利用线性代数方法求解，设
$Pr=[Pr(1)Pr(2)Pr(3)...Pr(n)]\bm{Pr}=\begin{bmatrix}Pr(1) \\Pr(2) \\Pr(3)\\...\\Pr(n)\end{bmatrix}$
（1）那么公式转化为：
$Pr=[1−q/N1−q/N1−q/N...1−q/N]+q∗[l(p1,p1)l(p1,p2)l(p1,p3)...l(p1,pn)l(p2,p1)l(p2,p2)l(p2,p3)...l(p2,pn)l(p3,p1)l(p3,p2)l(p3,p3)...l(p3,pn)...l(pn,p1)l(pn,p2)l(pn,p3)...l(pn,pn)]∗Pr\bm{Pr}=\begin{bmatrix}1-q/N \\1-q/N \\1-q/N\\...\\1-q/N\end{bmatrix}+q*\begin{bmatrix}l(p_1,p_1)&l(p_1,p_2)&l(p_1,p_3)&...&l(p_1,p_n) \\l(p_2,p_1)&l(p_2,p_2)&l(p_2,p_3)&...&l(p_2,p_n) \\l(p_3,p_1)&l(p_3,p_2)&l(p_3,p_3)&...&l(p_3,p_n) \\...\\l(p_n,p_1)&l(p_n,p_2)&l(p_n,p_3)&...&l(p_n,p_n) \end{bmatrix}*\bm{Pr}$
至于那个 $l(p_i,p_j)$ 就是上文中的 $L (B) 、 L (C)$ 之类的，简单想想画一画就理解了。
（2）然后就是解方程
线性代数幂法求解，emmm，有点忘了，想细看的去搜一下就可以得到答案，不纠结这个了。

整体上还有更细节解读方式，资料见https://www.changhai.org/articles/technology/misc/google_math.php。

总而言之：这种方式得到的各个页面的分数与用户的搜索无关，就是一个【静态】分数，衡量的是这个页面的火热度，而衡量搜索词与页面关系的原始方式用的是Tf-idf（BM25是改进版）。

2. TF-idf

细节就不重复了，要学会借鉴别人的成果https://my.oschina.net/stanleysun/blog/1617727

TF-idf简单来说，举个例子：
搜索query中的词，如果在某个页面出现的很多，那么这query和此页面就很可能相关，此为TF；
但是有一些不重要的词，比如“的”，“哪”这种，在每个页面都出现了，那么意味着这种词对于各个页面来说没有区分度，根据这些词计算的TF值即使很高，也没有啥意义。那么怎么判定一个词的区分度呢，如果某个词/元素只集中在某些页面，而且越集中，说明区分度越高，此为IDF。

延伸：可以利用TF-idf的思想做特征选择，比如某个分类任务，有几百万、千万的特征，你可以统计特征在所有样本的频次取top级别（比如50w）作为你选用的特征，但是这里很可能就会有垃圾特征，与上述的“的”，“哪”这种类似；怎么办呢，可以利用idf的思想，如果某个特征在每个类别样本都出现，那么这个特征可能就是没啥区分度的，如果集中在某几个类别，说明区分度好…

TF-idf原本是用来衡量搜索词与页面的相关性的，但是思想可以用的场景不止于此，所以还是我在bert那一博客提到的，注意这些前人成果的剑意精髓，具体的招式反而次要。

3. 协同过滤

套路有很多，本质上核心的就是矩阵分解，举个例子， $m$ 个用户，对 $n$ 个商品的评分，形成了一个大矩阵 $R_{m*n}$ ，一般是一个稀疏矩阵，将矩阵分解为
$Rm∗n≈Um∗k∗Rk∗k∗Ik∗nR_{m*n} \approx U_{m*k}*R_{k*k}*I_{k*n}$ 或者 $Rm∗n≈Um∗k∗Ik∗nR_{m*n} \approx U_{m*k}*I_{k*n}$ ，那么 $U_{m*k}$ 可以看做是每个用户的向量描述， $I_{k*n}$ 可以看做是每个商品的向量描述。至于怎么分解，大致两种方式，一种是数学角度比如SVD改进之类，一种是初始化后梯度下降这种。

有了向量描述，计算用户或者商品的相似度、聚类、推荐什么的都可以操作了。

不管怎么说，本质上是对矩阵 $R_{m*n}$ 的处理，信息量是有限的，可以认为这些向量描述是购买行为/评分行为graph的一种embedding。

实际中应该会引入更多的信息，上述得到的向量描述只能算是用户/商品在这一种行为角度下的特征vector，信息单一。

4. 模型的分布式训练

https://www.zhihu.com/question/53851014这个文章说的很清楚，不赘述。
简单理解：

数据并行，可以理解为用 $n$ 个worker并行跑 $n$ 个batch；
同步更新：n个节点从parameter server取到参数矩阵 $w$ ，输入一个batch训练数据计算梯度以后回传到parameter server，对多个节点回传的梯度进行平均（也是额外计算开销），然后更新参数矩阵 $w$ ，然后各个节点从这里获取新的参数 $w_1$ ，如此循环；如果需要等待所有节点回传，某个worker计算很慢，会出现等待的情况（当然可以设置一个阈值，太久了就不等了），这就是简单的同步更新例子，实际肯定不是我说的那么简单。
异步更新：每个节点从parameter server取到参数矩阵 $w$ ，输入一个batch训练数据计算梯度以后回传到parameter server，不等待其他节点数据，parameter server更新参数矩阵 $w$ ，计算完成的worker向parameter server取得最新的参数，这种方式存在梯度/参数过时的情况。
模型并行，矩阵计算分块处理。

实际情况肯定有各种优化，比如模型并行和数据并行一起用、同步和异步的处理。

5. 图像风格迁移三部曲

https://zhuanlan.zhihu.com/p/40322927 具体看这位同学的。我主要说点背后的思想和自己的感悟。

5.1 固定风格固定内容的普通风格迁移

A Neural Algorithm of Artistic Style
最早的风格迁移，最慢的，最经典的。

首先，图片本质上是一个矩阵，比如维度为 $256 * 256 * 3$ ， $256 * 256$ 表示图片的大小、像素点个数，3表示3通道RGB。

给定风格图片 $s_1$ ，给定内容图片 $c_1$ ，随机初始化结果图片 $r_1$ ，计算 $s_1$ 与 $r_1$ 的风格损失函数 $loss_s$ ，计算 $c_1$ 与 $r_1$ 的内容损失函数 $loss_c$ ，然后加权相加，loss最小化，优化图片 $r_1$ 的参数，就ok了。

问题核心就在构建风格损失函数 $loss_s$ 和内容损失函数 $loss_c$ ：
拿一个预训练好的特征提取网络比如vgg16，分别把 $c_1$ 与 $r_1$ 输入，得到中间层特征feature map，利用中间的feature map加工得到两种loss。

举个例子

步骤1：当我们输入 $c_1$ 进入vgg16，取中间某4层的输出，假设 $c_1$ 的尺寸是 [1, 3, 512, 512]（四个维度分别代表 batch, channels, height, width），那么它返回的四个中间层的尺寸就是这样的，
$c_{1}^{vgg_{f1}}$ : [1, 64, 512, 512]
$c_{1}^{vgg_{f2}}$ : [1, 128, 256, 256]
$c_{1}^{vgg_{f3}}$ : [1, 256, 128, 128]
$c_{1}^{vgg_{f4}}$ : [1, 512, 64, 64]

步骤2：输入 $r_1$ 进入vgg16得到
$r_{1}^{vgg_{f1}}$ : [1, 64, 512, 512]
$r_{1}^{vgg_{f2}}$ : [1, 128, 256, 256]
$r_{1}^{vgg_{f3}}$ : [1, 256, 128, 128]
$r_{1}^{vgg_{f4}}$ : [1, 512, 64, 64]

步骤3：将 $c_{1}^{vgg_{fi}}$ 与 $r_{1}^{vgg_{fi}}$ （ $i = 1 、 2 、 3 、 4$ ）矩阵对应取均方误差MSE，得到内容损失函数 $loss_c$ ，这个好理解，说白了，特征矩阵feature map越相近，内容上越接近。

步骤4：输入 $s_1$ 进入vgg16得到
$s_{1}^{vgg_{f1}}$ : [1, 64, 512, 512]
$s_{1}^{vgg_{f2}}$ : [1, 128, 256, 256]
$s_{1}^{vgg_{f3}}$ : [1, 256, 128, 128]
$s_{1}^{vgg_{f4}}$ : [1, 512, 64, 64]

步骤5：对 $r_{1}^{vgg_{fi}}$ （ $i = 1 、 2 、 3 、 4$ ）计算gram矩阵
$r_{1}^{vgg_{f1}}$ : [1, 64, 512, 512] -> $r_{1}^{gram_{f1}}$ : [1, 64, 64]
$r_{1}^{vgg_{f2}}$ : [1, 128, 256, 256] -> $r_{1}^{gram_{f2}}$ : [1, 128, 128]
$r_{1}^{vgg_{f3}}$ : [1, 256, 128, 128] -> $r_{1}^{gram_{f3}}$ : [1, 256, 256]
$r_{1}^{vgg_{f4}}$ : [1, 512, 64, 64] -> $r_{1}^{gram_{f3}}$ : [1, 512, 512]
怎么计算的呢，比如对 $r_{1}^{vgg_{f1}}$ ，有64个feature map，大小都为[512, 512]，两两做矩阵"点乘"（类似向量的点乘）得到一个数值，整体就得到一个[64, 64]大小的矩阵（当然每个元素除以512*512归一化？）。

步骤6：同理可以得到 $s_{1}^{vgg_{fi}}$ （ $i = 1 、 2 、 3 、 4$ ）的gram矩阵，对 $r_{1}$ 和 $s_{1}$ 的gram矩阵做MSE，得到风格损失函数 $loss_s$ ，也就是说，gram矩阵越相近，风格上越接近。这个怎么理解，我也不很确定，Gram计算的实际上是两两特征之间的相关性，哪两个特征是同时出现的，哪两个是此消彼长的等等。

5.2 固定风格任意内容的快速风格迁移
Perceptual Losses for Real-Time Style Transfer and Super-Resolution

思路：假设存在这么一个模型 $model_1$ 对应风格图片 $s_1$ ，可以输入内容图片 $c_1$ 、 $c_2$ 、…，得到结果图片 $r_1$ 、 $r_2$ 、…；初始化 $model_1$ 的参数，然后依据结果图片 $r_i(i=1,2,...)$ 计算两种损失函数来优化 $model_1$ 的参数。