从小白到Embedding高手：BERT、T5和Qwen3的嵌入技术变革

最新推荐文章于 2025-12-07 19:40:17 发布

原创

最新推荐文章于 2025-12-07 19:40:17 发布 · 909 阅读

CC 4.0 BY-SA版权

文章标签：

从小白到Embedding高手：BERT、T5、Qwen3和DeepSeek的嵌入技术全解

Embedding 就是把文字变成数字向量，让机器能理解“词语之间的关系”。

目的：语义相似的词→向量距离更近。

One-Hot 问题：
- “猫” = [1,0,0,0,…]，“狗” = [0,1,0,0,…]
- 缺点：维度非常高（词表有多大，向量就有多长），且"猫"和"狗"完全无联系。
Embedding 优势：
- 降维（一般 256～1024 维）。
- 表达语义关系：“猫” 和 “狗” 向量更接近，而"猫"和"汽车"距离远。

$\text{cosine}(\mathbf{a},\mathbf{b}) = \frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{a}\|\,\|\mathbf{b}\|}$

import torch
# 假设词表大小=5，维度=2
embedding = torch.nn.Embedding(5, 2)
ids = torch.tensor([0, 1, 2])  # "苹果", "香蕉", "公司"
print(embedding(ids))

输出：每个id对应一个2维向量。

Word2Vec 有两种主要架构-：

目标：用上下文预测中心词。

示例：给定上下文 “I ___ reading a book”，预测空格中的词 “am”。

优点：训练速度快，适合大语料。

工作流程：

上下文词用 one-hot 编码表示。

投影到词向量空间（嵌入矩阵）。

对上下文向量取平均或加权求和。

用 softmax 预测中心词概率。

目标：用中心词预测上下文词。

示例：给定词 “reading”，预测它前后若干词，例如 “I”, “a”, “book”。

优点：对低频词表现更好。

工作流程：

中心词 one-hot 编码。

投影到词向量空间。

预测上下文词的概率分布。

可以理解为：CBOW 重视上下文信息来预测词，Skip-gram 重视中心词来预测上下文。

年份：2018
亮点：
- 基于 Transformer 的双向编码，每个词向量会根据上下文变化。
- 嵌入由词嵌入 + 位置嵌入 + 段落嵌入组成，使用 WordPiece 分词。
应用：文本理解、问答、搜索、命名实体识别
补充：WordPiece 分词是一种子词级分词方法，原理是将词拆成更小的单位（子词），通过统计语料中字符或子词序列出现的频率，构建一个固定大小的子词词表。这样既能表示常见词，也能处理新词或罕见词，解决传统词级分词的词表过大和未登录词问题。举例：词 “unbelievable” 可以被拆成 un ##believ ##able，词 “p