大模型拯救世界｜理论04｜什么是Embedding，大模型入门到精通，收藏这篇就足够了！

原创于 2025-09-28 14:32:52 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #LLM #embedding #langchain #llama #大模型教程 #大模型开发

大模型拯救世界｜理论04｜什么是Embedding

一句话记住：
Embedding 模型就是把“任何离散的东西”（词、句子、图片、用户ID……）变成“一串数字向量”的小翻译官。
有了向量，计算机就能算“像不像”“远不远”“怎么变换”。

下面用“人话+例子+图示”讲透它。

一、为什么需要 Embedding？

计算机只认数字，不认“苹果”两个字。
原始做法：把 5000 个词做成 5000 维的 One-Hot 向量
```
苹果 = [0,0,…,1,…,0]   ← 第233位是1，其余全是0
```
缺点：维度爆炸、完全看不出“苹果”和“香蕉”都是水果。

Embedding：把 5000 维压成 300 维的稠密向量，而且语义相近的词在向量空间里也靠近。

苹果 ≈ [0.21, -0.45, 0.78, …]   ← 300 个浮点数
香蕉 ≈ [0.23, -0.40, 0.75, …]   ← 和苹果向量非常近

二、Embedding 长什么样？

本质：一个巨大的查找表（Lookup Table）
行数 = 词表大小（如 50,000）
列数 = 向量维度（如 300）
训练时随机初始化，然后通过“猜下一个词”任务自动调整。
这就跟 Word2Vec、GloVe、BERT、CLIP 都一样：
“让上下文相近的词在向量上也靠得近”。

三、Embedding 能干啥？

任务	直观例子	用到的向量计算
近义词搜索	输入“开心”，返回“高兴、愉快”	向量余弦距离最近
推荐系统	用户看了《复联4》，推荐《钢铁侠》	电影向量靠近
图文检索	输入文字“金毛狗”，搜到金毛照片	文本向量 vs 图像向量
翻译	“猫”→“cat”	中英向量映射到同一空间
算术题	king-man+woman ≈ queen	向量加减

四、代码级最小示例（PyTorch）

4567891011121314
import torch.nn as nn

vocab_size  = 50000   # 词表里有多少词
embed_dim   = 300     # 每个词用 300 维表示

# 1. 声明一个 Embedding 层，其实就是一张可训练的表
embedding = nn.Embedding(vocab_size, embed_dim)

# 2. 把“词索引”变成“向量”
word_id = torch.tensor([1234])          # “苹果”在词表中的编号
vec = embedding(word_id)                # 输出形状 [1, 300]

训练时，这些 300 个数字会随着“猜下一个词”任务一起被反向传播更新，最终形成语义空间。

五、一张图秒懂

15161718192021222324
┌------------┐
│ 词表索引 233 │───┐
└------------┘   │
                 ▼
┌----------------------------------┐
│  Embedding 表 (50000 × 300)      │
│  第233行：[0.21, -0.45, 0.78…]   │
└----------------------------------┘
                 │
                 ▼

六、常见 Embedding 家族

模型	特点	例子
Word2Vec	静态词向量，一个词一个向量	“苹果”永远同一向量
BERT Embedding	上下文相关，同一词在不同句子里向量不同	“苹果很好吃” vs “苹果手机”
Sentence-BERT	直接把整句话变成向量	用于语义搜索
CLIP	图文跨模态 Embedding	文字“狗”和图片“狗”在同一空间