深入浅出推荐系统（四）：召回：向量化的潮流

本文深入探讨了embedding在机器学习，特别是推荐系统中的应用。从word2vec的起源和发展，到DSSM模型在推荐领域的应用，再到YouTube的深度学习网络，展示了embedding如何将实体转化为向量表示，用于计算相似性和推荐。同时，介绍了图embedding、ItemEmbedding以及在线召回机制，如Faiss和Milvus在高维向量检索中的作用。最后，强调了embedding在解决推荐系统挑战的同时，也存在新用户和新物品冷启动及可解释性问题。

只要对机器学习稍有涉猎，就会发现如今机器学习，无论是推荐、图像、语言等领域，随处可见embedding，可以说，在深度学习主宰机器学习领域的今天，万物皆可embedding。那么，什么是embedding，怎么对实体进行embedding，推荐领域里，embedding会怎么应用呢？且待本文一一道来。

embedding简介

embedding是什么

在本文之前的几篇文章里，曾经提及对用户或物品的embedding，实际上，embedding就是将实体的自然表达变化成向量化表达的方法。

将实体（用户、物品、图像等）表示为向量有什么用处呢？因为基于文字或者图片表达的实体，并不能够被计算机理解，因此它们彼此之间无法进行相互比较，而一旦转换成计算机可理解的向量，则能够计算它们彼此的距离，从而可以对他们进行相似度的计算了。

其实，在embedding之前，也有各种讲实体进行数值化的方法，比如LDA，plsa，tfidf等， embedding可以看作是将实体在高维数值空间进行映射，只要向量维度足够高，且映射方式合理，就能够很好地表达复杂的实体，因此embedding甫一出世，便获得了热烈的追捧。

embedding的起源及发展

说起embedding，就不得不提word2vec。word2vec是embedding的开天辟地之作，奠定了embedding的根基。对word2vec的学术理解可以参考Mikolov等人的文献[1]和[2]和[3]（文献[3]是doc2vec，使用向量来表达整个文档）。

这里用白话简单介绍下word2vec：
word2vec构建了一个通过上下文来预测单词概率的任务。它的思路是：设置一个滑动窗口（比如5），当滑动窗口滑过文章时，出现在滑动窗口中的几个单词，掩盖住其中一个，通过其他单词来预测被掩盖的那个单词。
在这里插入图片描述

上图展示了经典的word2vec模型，对于V个单词，通过滑动窗口选中若干连续单词，这几个单词经过Hidden layer（隐藏层）后，再次映射到V个单词上，预测每个单词的概率，如果目标单词的概率最高，则说明这个网络可以很好地对单词进行预测，也就是隐藏层很好地表达了目标单词。
上面这个模型是word2vec中的CBOW方法，Mikolov还提出了另一个对word做embedding的方法，即Skip-gram。与Skip-gram的结构与CBOW完全一致，仅仅是任务不同，它会在滑动窗口中掩盖大多数单词，仅保留一个单词，用这个单词去预测其他被掩盖的单词。下图展示了这两种方法的区别。
在这里插入图片描述

因为在全量单词空间预测概率是个非常耗时的事情，因此word2vec分别使用了Hierarchical Softmax（层次化Softmax）和Negative Sampling（负采样）对目标进行近似处理，减少目标预测的任务量。其中Hierarchical Softmax使用哈夫曼树对单词进行编码，使得高频词更容易被采样到，从而从整体上减少对目标单词的预测任务。而Negative Sampling则是通过采样一定的负例（非目标单词），减少对全量负例的训练。

由于Hierarchical Softmax方法并不能很好地进行并行化，因此，当今的embedding模型中，大部分优化方式都是Negative Sampling，Hierarchical Softmax在深度学习中并不常见。以上两种优化方法包含在常用的机器学习训练包里，直接使用即可。

from gensim.test.utils import common_texts
from gensim.models import Word2Vec

model = Word2Vec(sentences=common_texts, vector_size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")

需要注意的是，虽然大量的深度学习会用到embedding的概念，但是作为embedding始祖的word2vec，本身却并不是深度学习模型，因为它的模型里仅包含一层隐层。

embedding的思路非常好地在物体的现实表达和数值化表达构建出一个桥梁。它的精髓在于构建一个合理的任务，在训练任务的过程中，得到向量化的副产品。作为范本，word2vec很好地展现了这一思路，那之后，embedding的应用便在机器学习领域如火如荼地兴起了。