Embedding (向量化)——离散实例映射到连续的数值向量中。
简单来说,Embedding 是一种把一些难以处理的离散对象(比如文字、图片、声音等)转化为计算机容易理解的形式——数值向量,便于数学运算和机器学习模型的处理的技术。数值向量通常具有一定的维度,每个维度上的值代表了对象的某个特性或属性,通过数值向量,计算机能够捕捉到离散对象之间的相似性、关联性以及其他内在的关系,进而便于计算机理解它们的意义,比如苹果和梨的数值向量比较接近,但是苹果和狗的数值向量就差的比较多,进而便于计算机处理和使用这些数据。这种转换有助于机器学习和深度学习算法更好地捕捉数据中的关系。
Embedding 技术就像是给计算机提供了一种语言,让它能够理解人类世界里的事物。通过将信息转化为向量,计算机就可以更好地处理和理解这些信息,从而完成各种任务,如搜索、推荐、翻译等。
特点:
- 降维:高维稀疏对象———>低维稠密向量,减少数据的维度,从而简化计算和提高效率。
- 散对象映射到连续离向量空间:Embedding 将每个离散的对象映射到一个连续的数值向量中,使得机器学习模型可以更容易地处理这些数据。
- 捕捉对象之间的关系:好的 Embedding 方法能够捕捉到对象之间的关系,比如相似性、语义关系、上下文信息等。
真正有意义的是这些向量(Embedding)之间的相对位置和它们之间的关系,而不是具体的向量值本身。两个向量之间的距离或相似度通常反映了它们所代表的对象之间的相似性。捕捉潜在关系,计算机通过得知对象之间的相似度来理解对象的意义。
Embedding 技术广泛应用于自然语言处理(NLP)——情感分析、机器翻译、问答系统、计算机视觉——图像检索、对象识别、推荐系统——基于用户行为和项目特征的相似性
Embedding是通过在大型数据集上训练模型来学习的,而不是由人类专家明确定义。这使得模型能够学习数据中人类难以或不可能识别的复杂模式和关系。
Embedding技术在推荐系统中的作用:
(1)在深度学习网络中作为Embedding层,完成从高维稀疏特征向量到低维稠密特征向量的转换。
(2)作为预训练的Embedding特征向量,与其他特征向量连接后,一同输入深度学习网络进行训练。
(3)通过计算用户和物品的Embedding相似度,Embedding可以直接作为推荐系统的召回层或者召回策略之一,通过计算物品和物品的Embedding相似度,得到物品的相似推荐。
深度学习的结构特点不利于稀疏特征向量的处理:
稀疏特征向量通常具有很高的维度,即使大多数维度上的值为零,增加了模型的学习难度。