为什么要使用Embedding Layers

最新推荐文章于 2025-05-19 10:03:32 发布

翻译最新推荐文章于 2025-05-19 10:03:32 发布 · 7.4k 阅读

文章标签：

#embedding

机器学习专栏收录该内容

15 篇文章

订阅专栏

EmbeddingLayer在处理高维稀疏数据时极为有效，如NLP中的词向量化，能减少one-hot编码的维度并捕捉词间关系；在用户行为分析及推荐系统中，亦能高效地嵌入复杂信息，提升深度学习模型的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么我们要开始使用embedding layer

在这里插入图片描述
在介绍embedding的概念可能非常陌生。例如，除了“将正整数（索引）转换为固定大小的稠密向量”之外，Keras文档没有提供任何解释。快速谷歌搜索可能不会让你更进一步，因为这些类型的文档是第一个弹出的东西。但是，在某种意义上，Keras的文档描述了所发生的一切。那么为什么要使用embedding layer呢？以下是两个主要原因：

one-hot编码向量是高维和稀疏(sparse)的。假设我们正在进行自然语言处理（NLP）并且有一个2000字的字典。这意味着，当使用one-hot编码时，每个单词将由包含2000个整数的向量表示，其中1999个是零。在大数据集中，这种方法的计算效率不高。
每个embedding的向量在训练神经网络时得到更新。如果你已经看过这篇文章顶部的图片，你可以看到在多维空间中如何找到单词之间的相似度。这使我们可以看到单词之间的关系，也可以看到任何可以通过embedding转换为向量的事物之间的关系。
这个概念可能仍然有点模糊。让我们看一下embedding layer对词示例的作用。然而，embedding的起源来自于word embedding。如果您有兴趣阅读更多内容，可以看看word2vec的论文。我们以这句话为例（不要认真对待）：
“deep learning is very deep”
使用embedding layer的第一步是通过索引对该句子进行编码。在这种情况下，我们为每个唯一单词分配一个索引。这句话看起来像这样：
1 2 3 4 1
接下来创建embedding矩阵。我们决定为每个下标分配多少“潜在因素(latent factors)”。基本上这意味着我们想要向量多长。一般用例的长度为32和50。让我们在这篇文章中为每个索引分配6个潜在因子，以保持其可读性。 embedding矩阵看起来像这样：

因此，我们可以使用embedding矩阵来保持每个向量的大小更小，而不是以巨大的one-hot编码向量。简而言之，发生的事情就是“deep”这个词由向量 [.32, .02, .48, .21, .56, .15]表示。 但是，并非每个单词都被向量替换。相反，它被用于在embedding矩阵中查找向量的索引替换。当再次使用非常大的数据集时，这在计算上是有效的。由于embedding向量在深度神经网络的训练过程中也得到更新，我们可以在多维空间中探索哪些词是彼此相似的。通过使用像t-SNE这样的降维技术，可以看到这些相似之处。

t-SNE visualization of word embeddings

不仅仅word embedding

前面的例子表明，word embedding在自然语言处理领域非常重要，它们使我们能够捕获非常难以捕获的语言关系。但是，embedding layer可以用于嵌入更多的东西，而不仅仅是单词。在我目前的研究项目中，我使用embedding layer来嵌入在线用户行为。在这种情况下，我正在为用户行为分配索引，例如“在门户Y上的页面类型X上的页面视图”或“滚动的X像素”。然后，这些索引用于构造用户行为序列。

在将“传统”机器学习模型（SVM，随机森林，梯度提升树）与深度学习模型（DNN，RNN）进行比较时，我发现这种embedding方法对深度神经网络非常有效。

“传统的”机器学习模型依赖于设计的特征的表格输入。这意味着我们作为研究人员决定将什么变成一个特征。在这些情况下，特征可能是：访问的主页数量、完成的搜索量、滚动的像素总数。 但是，在进行特征工程时很难捕获空间（时间）维度。通过使用深度学习和embedding layer，我们可以通过提供一系列用户行为（作为索引）作为模型的输入来有效地捕获此空间维度。

在我通过门控递归单位/长短期记忆（Gated Recurrent Unit/Long-Short Term Memory）来研究RNN中表现最佳，结果非常接近。从“传统”特征工程对Gradient Boosted Trees建模表现最佳。我将在未来更详细地写一篇关于这项研究的博客文章。我想我的下一篇博文将更详细地探讨RNN。

其他研究探索了使用embedding layer来编码学生行为MOOCs (Piech et al., 2016) 。以及用户通过在线时尚商店的路径(Tamhane et al., 2017)。