第四章:大模型(LLM)
第一部分:Embedding is all you need
第六节:从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)
一、引言:一切的起点是“向量表达”
在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。
Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。
向量化不仅让机器“理解”语言,还为后续推荐系统、广告排序、LLM 模型提供了统一的特征表达方式。Embedding 不仅仅是技术细节,它是现代人工智能表示学习的核心引擎。
二、Word2Vec:构建语义空间的起点
1. 基本原理
Word2Vec 包括两个训练目标:
模型 | 输入 | 输出预测 | 特点 |
---|---|---|---|
CBOW | 上下文词 | 预测当前中心词 | 适合大语料、高频词建模 |
Skip-Gram | 当前中心词 | 预测上下文词 | 适合小语料、低频词建模 |
2. 模型结构简化解释:
-
词语通过 嵌入矩阵 W 映射为向量;
-
然后计算概率分布(softmax)预测上下文;
-
通过最大化 log-likelihood 进行训练;
-
输出是一个词典中每个词对应的 稠密向量表示(embedding)。
三、Embedding 在推荐系统中的应用
1. 核心思想:推荐系统也有“语言”
-
用户行为序列 = 一个句子;
-
商品/内容 = 一个个“词”;
-
用户点击序列中的商品,也可用 Skip-Gram/CBOW 训练模型;
-
得到的商品向量可用于相似度召回或冷启动补全。
2. 实际落地应用
案例1:淘宝推荐系统
-
淘宝构建了商品点击序列,训练 item2vec;
-
相似商品召回性能提升,Cold Start 问题减轻。
案例2:YouTube 推荐系统(Covington et al., 2016)
-
利用用户历史行为 Embedding 得到 user vector;
-
与 candidate item vector 做匹配(点积或 MLP);
-
多阶段结构(候选召回 + 精排)均用到了 Embedding。
3. 多模态推荐
-
使用文本 Embedding + 图像特征 Embedding;
-
在视觉电商推荐中尤为常见;
-
嵌入空间支持“跨模态”相似度计算。
四、广告系统中的Embedding表示
1. 问题背景
广告系统包含大量高维稀疏离散特征:
-
用户属性(性别、年龄、兴趣标签);
-
广告属性(广告主、品类、关键词);
-
上下文(时间、设备、APP ID)。
使用 One-hot 编码维度极高,不适合直接进入模型。
2. 嵌入表示方法
-
每个稀疏特征都有一个 Embedding Lookup 表;
-
输入时映射为低维向量(如 16~64 维);
-
多个 Embedding 向量拼接后进入神经网络。
3. 工程落地模型
模型名称 | 特点 |
---|---|
Wide & Deep | 线性模型 + 深层网络;支持记忆与泛化 |
DeepFM | FM自动建交叉特征 + DNN特征提取 |
DIN / DIEN | 动态兴趣提取模型,基于用户行为序列 |
AutoInt | 注意力机制自动学习特征交叉 |
五、Embedding 到 LLM 的跃迁:统一的语义基础
1. Token Embedding 是 Transformer 的入口
Transformer 模型(如 BERT、GPT)将文本中的 token 映射为向量,这是模型的第一个计算步骤。
-
Token → Embedding Lookup;
-
通常与 Position Embedding 相加后输入网络。
2. Positional Embedding
由于 Transformer 没有循环结构,需加位置信息。
-
Sinusoidal:固定函数构造;
-
Learnable:模型训练时自适应学习。
3. 从静态到动态的语义学习
模型 | 特点 |
---|---|
Word2Vec | 静态 Embedding,每个词语唯一向量 |
BERT | 上下文相关的动态向量表示(双向 Transformer) |
GPT | 利用解码器结构动态生成文本与上下文语义 |
4. 应用场景迁移
-
推荐系统使用上下文 Embedding 学习用户兴趣;
-
LLM 使用多层 Transformer 构造更复杂的上下文依赖;
-
表示学习的思路不变,复杂度和上下文能力大幅提高。
六、从Word2Vec到LLM:演进路径总结
阶段 | 模型 | 特点与用途 |
---|---|---|
词向量阶段 | Word2Vec | 学习词的语义空间表示 |
推荐/广告阶段 | item2vec, DeepFM | 用户/商品/广告等高维特征低维嵌入 |
表达式学习阶段 | BERT, GPT | 上下文相关的动态嵌入,支持复杂推理与生成 |
多模态通用阶段 | CLIP, BLIP | 图文联合嵌入,向大模型统一表示演进 |
七、小结:Embedding是AI的语言
从 Word2Vec 到推荐系统、广告排序、再到 GPT、ChatGPT、Gemini 等大语言模型,Embedding 技术一直是连接不同 AI 系统的桥梁。它不仅提升了表示能力,更为理解、推理、生成提供了统一的语义基础。
可以说:
“Embedding is not just a component; it is the soul of modern AI.”