Embedding（嵌入）

原创

已于 2025-04-29 00:02:23 修改 · 1k 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-04-27 01:18:11 首次发布

1. 嵌入的定义与本质

1.1 什么是嵌入？

嵌入（Embedding） 是一种将离散的、高维的、符号化数据（如单词、图像、用户ID等）映射到低维连续向量空间的技术。这些向量（称为嵌入向量）能够捕捉数据的语义、结构或特征，使得机器学习模型可以高效处理和理解数据。

形式化定义：
给定一个离散数据集合 $V$ （如词汇表、图像集），嵌入是一个函数 $\to \mathbb{R}^d$ ，将每个数据点 $\in V$ 映射到一个 $d$ 维实数向量 $f (x)$ ，其中 $d$ 通常远小于原始数据的维度。

1.2 通俗比喻

想象一个巨大的“概念宇宙”，每个单词、图像或用户是一颗星星，彼此之间的距离反映它们的相似性。嵌入就像一个“维度压缩器”，将这些星星从高维的、稀疏的宇宙投影到一个低维的、稠密的平面（比如 2D 或 300D）。在这个平面中，相似的事物（如“猫”和“狗”）靠得很近，而不相关的事物（如“猫”和“桌子”）距离较远。计算机通过这些向量间的几何关系（距离、角度）来理解和计算数据的语义。

1.3 嵌入的核心目标

降维：将高维稀疏表示（如 one-hot 编码）转化为低维稠密向量，降低计算和存储成本。
语义捕捉：嵌入向量在向量空间中的位置和关系反映数据的语义或特征。
泛化能力：通过嵌入，模型可以处理未见过的数据（例如新词、未标记图像）。
任务支持：嵌入向量作为特征输入，支持分类、回归、生成等任务。

2. 嵌入的数学与理论基础

为了更深入理解嵌入，我们需要从数学和理论角度剖析其工作原理。

2.1 离散表示的局限性

以自然语言处理（NLP）为例，假设有一个词汇表 $\{w_1, w_2, \dots, w_{|V|}\}$ ，最简单的表示方法是 one-hot 编码：

每个词 $w_i$ 用一个 $∣ V ∣$ 维向量表示，只有第 $i$ 位为 1，其余为 0。
例如，词汇表 $\{\text{苹果}, \text{橙子}, \text{香蕉}\}$ ，则：
- 苹果 = $[1, 0, 0]$
- 橙子 = $[0, 1, 0]$
- 香蕉 = $[0, 0, 1]$

问题：

高维稀疏：当 $∣ V ∣$ 很大（如 10 万），向量维度极高，存储和计算成本巨大。
语义缺失：one-hot 向量之间正交（内积为 0），无法反映“苹果”和“橙子”都是水果的相似性。
泛化能力差：无法处理未见词（Out-Of-Vocabulary, OOV）。

2.2 嵌入的数学表达

嵌入通过一个可学习的映射函数将离散数据转化为低维向量：
$Embedding(x)=W⋅x\text{Embedding}(x) = W \cdot x$
其中：

$\in \{0, 1\}^{|V|}$ 是输入数据的 one-hot 向量。
$\in \mathbb{R}^{|V| \times d}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。