语义ID论文精读《Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations》

语义ID论文精读《Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations》

在推荐系统的广袤世界里,物品ID(Item ID)如同每个物品的“身份证”,是模型识别与记忆它们的基础。长期以来,我们习惯于使用随机哈希ID (Randomly-hashed IDs),这种方法凭借其高效的记忆能力,在工业界大规模排序系统中占据着主导地位。然而,这种“死记硬背”的方式也带来了明显的弊端:模型对新出现的、缺乏交互的长尾物品束手无策,因为这些随机ID本身不携带任何语义信息,无法帮助模型进行泛化推理。

如何在不牺牲现有模型强大记忆能力的前提下,赋予其理解内容、泛化未来的能力?Google 在论文《Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations》中,给出了一条极具工程价值的路径。本文将深入解析这一方法,探讨其如何在YouTube的生产环境中,为推荐排序模型构建一座连接记忆泛化的桥梁。

一、 背景:推荐系统中ID表示的困境

在深入语义ID之前,我们必须清晰地认识到传统ID表示法面临的根本矛盾。

  1. 随机哈希ID的记忆优势: 工业级推荐系统通常拥有一个庞大的嵌入表(Embedding Table),通过随机哈希将海量的物品ID映射到表中的某一行。模型在训练中不断优化这些嵌入向量,从而能精准地“记住”每个热门物品的特性,例如点击率、用户偏好等。这是其强大性能的基础。

  2. 随机哈希ID的泛化劣势: 这种优势的代价是牺牲了泛化能力。

    • 语义鸿沟: 两个内容上高度相似的视频(例如,都关于“深度学习入门”),它们的随机ID毫无关联,模型无法将从一个视频上学到的知识迁移到另一个,造成了巨大的信息浪费。
    • 冷启动困境: 对于一个新发布的视频,由于缺乏用户交互数据,其ID嵌入无法得到有效训练,导致模型无法准确预估其表现,难以将其推荐给合适的用户。
  3. 现有方案的不足: 为了解决泛化问题,研究者们尝试了多种方案。

    • 纯内容嵌入 (Dense Content Embedding): 直接使用从视频内容(画面、音频、文本)中提取的稠密向量作为特征。这种方法泛化能力很强,但论文实验发现,它完全替代ID后会导致模型整体性能下降,因为它损失了ID所提供的强大记忆能力。
    • 端到端内容模型: 将内容编码器与推荐模型一起进行端到端训练。虽然效果显著,但其巨大的计算成本(通常是ID基线的10-50倍)使其难以在对延迟和成本极其敏感的大规模生产排序系统中部署。

面对这一困境,我们需要一种既能保留ID式记忆能力,又能融入内容语义进行泛化的新范式。

二、 核心方法:语义ID的生成与应用

语义ID的核心思想是通过一个两阶段流程,将物品的内容信息提炼并固化成一种新型的、离散化的ID。这篇论文语义Id的生成也是用的tiger论文提出的RQVAE方法,只不过这里是将语义Id用于排序阶段,将语义Id作为增强特征与其他特征进行拼接后,送入传统的排序模型。而tiger则是针对召回阶段,系统训练一个 Transformer Seq2Seq 模型,编码器输入用户历史交互物品的语义 ID 序列,解码器自回归地预测目标物品的语义 ID 序列。

第一阶段:语义ID的生成

image

此阶段的目标是将高维、连续的内容嵌入,高效地压缩为低维、离散的ID序列,同时保留其核心语义。

  • 内容嵌入的获取:内容嵌入的获取依赖预训练多模态编码器对原始特征的编码。以 YouTube 视频为例,系统首先收集标题、描述、标签、字幕等文本信息,以及视频帧和音频等多模态数据。这些原始内容通过预训练模型(如 SentenceT5 或 CLIP 类模型)编码为高维稠密向量 x∈R^D,该向量捕获了视频的核心语义信息。
  • 核心组件 (RQ-VAE): 论文采用残差量化变分自编码器 (RQ-VAE) 来完成此任务。其工作流程可以通俗地理解为一种“逐层精炼”的量化过程:
    1. 编码: 首先,一个编码器将原始的内容嵌入向量 x 映射到一个潜在向量 z
    2. 多层残差量化: 这是RQ-VAE的关键。在第一层,模型在码本(Codebook)中寻找与 z 最相似的编码向量,记录下其ID,并计算出两者之差,即残差 (Residual)。在第二层,模型不再对原始向量进行量化,而是对第一层的残差进行量化,再次记录ID并计算新残差。
    3. 循环往复: 这个过程会持续L层,每一层都是对上一层留下的“剩余信息”(即残差)进行精细化捕捉。
  • 输出: 最终,一个物品得到了一个由L个整数组成的ID序列,如 /* by 01022.hk - online tools website : 01022.hk/zh/calcarea.html */ (1723, 541, 1129, ...)。这个序列具有分层语义:ID的前缀部分代表了物品最广泛、最粗略的概念(如“体育”),而后续的ID则不断在细节上进行补充和限定(如“户外运动”->“沙滩排球”)。

第二阶段:在排序模型中适配语义ID

生成了语义ID后,如何让排序模型理解并使用它?论文提出,可以将这个定长的ID序列视为一个“句子”,通过类似自然语言处理中的“分词”思想来处理。

  • 核心思想: 将SID序列分解为“子词(subwords)”,为每个子词学习一个嵌入向量,最后将这些子词的嵌入组合起来,形成最终的物品表示。

  • 方法1:基于N-gram的表示法

    • 原理: 采用固定长度的滑窗来切分SID序列。例如,Unigram (N=1) 将每个ID都视为一个独立的子词;Bigram (N=2) 则将每两个相邻的ID组合成一个子词。
    • 优劣分析: 这种方法简单直观,但其主要缺陷在于灵活性差。更重要的是,嵌入表的规模会随着N的增大呈指数级增长(\(K^N\)),这极大地限制了其捕捉更长、更复杂语义组合的能力。
  • 方法2:基于SPM的表示法 (SentencePiece Model)

    • 原理: 借鉴NLP中广泛应用的SentencePiece模型,该方法不再使用固定的N,而是根据ID组合在训练数据中出现的频率,动态地、自适应地学习最优的子词切分方案。那些频繁共现的ID组合(如代表某个热门主题的ID序列)会被自动合并成一个更长的子词,而稀有的ID则可能保持为单个的子词。
    • 优势: SPM能够在给定的嵌入表预算内,智能地分配其“记忆容量”。它用更长的子词去“记忆”重要且常见的语义模式,用更短的子词去“泛化”不常见的组合,从而在记忆和泛化之间取得了更优的平衡。
  • N 大和 N 小的好处与核心思想

N-gram 长度 \(N\) 的选择,体现了泛化能力记忆能力之间的权衡。

特性\(N\) 较小(如 \(N=1\) Unigram)\(N\) 较大(如 \(N=4\)
组合长度短(1 个编码)长(多个编码)
嵌入表开销\(K\) 的倍数),内存高效。\(K^N\) 爆炸式增长),资源消耗高。
语义粒度粗糙。只捕获单个层级的语义。精细。捕获多个层级编码的联合语义
泛化能力。项目更容易共享短片段的嵌入(例如 \(\mathbf{emb}(c_v^1)\)),知识共享多。。只有极其相似相同的项目才会共享长片段的嵌入,泛化能力差。
记忆能力。无法为热门项目的特定组合学习独特的嵌入,记忆细粒度偏差的能力不足。。为热门 SID 的长片段组合学习了独特的嵌入,能够精确记忆该项目的独有特征。
核心思想提升泛化能力。 牺牲对单个项目的精确记忆,换取对新/长尾项目的语义迁移提升记忆能力。 牺牲泛化能力,换取对热门/核心项目的精确拟合

三、 实验分析:语义ID的性能表现

论文在YouTube的生产级多任务排序模型上进行了详尽的实验,结果有力地证明了语义ID的有效性。

image

image

  1. 实验设置:

    • 模型: 真实的YouTube视频推荐排序模型。
    • 基线: 传统的随机哈希 (Random Hashing) 和直接使用纯内容嵌入 (Dense Input)
    • 评估指标: 整体CTR AUC(衡量模型在所有视频上的总体排序能力)和CTR/1D AUC(仅衡量模型对24小时内新发布视频的排序能力,即冷启动性能)。
  2. 核心结论:

    • 语义ID vs. 纯内容嵌入: 实验验证了前文的观点,直接使用/* by 01022.hk - online tools website : 01022.hk/zh/calcarea.html */ Dense Input替代ID会导致整体性能(CTR AUC)的显著下降,因为它破坏了模型长期依赖的记忆能力。
    • 语义ID vs. 随机哈希: 这是最关键的对比。
      • 冷启动场景 (CTR/1D AUC)下,无论是N-gram还是SPM-SID,其表现都远超随机哈希基线。这表明语义ID凭借其内容理解能力,极大地提升了模型对新视频的泛化预测能力。
      • 整体性能 (CTR AUC)上,当使用足够大的嵌入表时,SPM-SID的表现能够持平甚至超越随机哈希基线。这证明了语义ID可以在不牺牲(甚至提升)模型整体记忆和排序能力的前提下,带来额外的泛化增益。
    • SPM-SID vs. N-gram-SID: 在嵌入表规模较大时,SPM凭借其自适应的“分词”能力,在整体性能和冷启动性能上均优于固定的N-gram方法,展现了更强的效率和扩展性。

四、 总结与思考

《Better Generalization with Semantic IDs》这篇论文为推荐系统领域贡献了一个极具价值的范式。

  1. 总结: 利用 RQ-VAE,从固定的内容嵌入中为数十亿YouTube视频开发了 语义ID(Semantic IDs),以捕获整个语料库中具有语义意义的分层结构。我们提出并证明,语义ID是一种有效的方法,能够通过引入有意义的碰撞来取代视频ID,从而提高泛化能力。

  2. 优缺点分析:

    • 优点:
      • 有效解决冷启动: 显著提升对新物品和长尾物品的推荐效果。
      • 资源高效: 相比直接使用高维内容嵌入,语义ID(几个整数)的存储和查询成本极低。
      • 可解释性更强: 分层的ID结构使得分析和理解物品间的语义层级关系成为可能。
    • 缺点:
      • 实现复杂度更高: 相比即插即用的随机哈希,引入语义ID需要额外的RQ-VAE模型训练、ID生成和特征适配流程。
  3. 工业启示: 对于希望提升模型内容理解和泛化能力的大规模推荐系统而言,语义ID提供了一条工程上可行效果显著的演进路径。它并非要求推倒重来,而是可以在现有成熟的排序模型架构上,通过“特征升级”的方式平滑地引入,这对于追求稳定迭代的工业界系统具有极大的吸引力。

附录

A.1 RQ-VAE 训练与服务设置

模型超参数:对于 RQ-VAE 模型,我们使用一个维度为 256 的单层编码器-解码器模型。我们应用 L = 8 层量化,每层使用码本大小 K = 2048。

RQ-VAE 训练:我们在一个随机抽样的曝光视频数据集上训练 RQ-VAE 模型,直至重建损失趋于稳定(对于我们语料库,约需数千万训练步数)。向量量化技术在训练过程中已知会遭遇码本坍塌问题,即模型仅使用一小部分码本向量。为应对这一挑战,我们在每个训练步骤中,将未使用的码本向量重置为从当前批次内随机采样视频的内容嵌入,这显著提高了码本利用率。我们使用 β = 0.25 来计算训练损失。模型训练完成后,我们冻结 RQ-VAE 模型,并使用其编码器为视频生成语义 ID。

RQ-VAE 服务/推理:当有新视频加入语料库时,我们使用冻结的 RQ-VAE 模型生成其语义 ID。随后,这些语义 ID 会与其他用于排序的特征一样,被存储并提供服务。

A.2 语义ID随时间推移的稳定性

image

  • 研究目的:验证语义ID是否稳定,即当底层生成模型(RQ-VAE)随着新数据更新后,先前生成的语义ID是否仍然有效。
  • 实验方法:使用相隔6个月的数据训练了两个RQ-VAE模型(v0和v1),并用它们分别为视频生成语义ID。然后,在同一个最新的生产排名模型上比较这两组ID的性能。
  • 核心发现:如图5所示,使用旧模型(RQ-VAEv0)和新模型(RQ-VAEv1)生成的语义ID,其下游排名模型性能相当
  • 结论:这表明通过RQ-VAE学习到的视频语义标识空间是稳定的,不会随时间推移而迅速过时,满足生产系统对特征一致性的要求。

A.3 作为概念层次结构的语义ID

  • 核心观点:语义ID天然地捕获了视频内容的层次化概念结构
  • 形象比喻:可以将语义ID视为一棵前缀树(Trie),其中:
    • 高层级(ID序列的前几位):代表粗粒度的概念(如“体育”)。
    • 低层级(ID序列的后几位):代表细粒度的概念(如“沙滩排球教学”)。
  • 实例证明:论文中的图6和图7展示了从训练好的模型中提取的两个示例子树,分别对应于“体育”和“美食视频”领域,直观地显示了这种从一般到具体的概念层级关系。

A.4 基于语义ID的相似性分析

image

  • 研究目的:定量分析语义ID的层级结构是否与内容本身的语义相似度相符。
  • 实验方法:计算所有共享前n位语义ID前缀的视频,在原始内容嵌入空间中的平均余弦相似度,并统计对应的子树大小。
  • 关键发现:如表1所示:
    • 随着共享前缀长度n的增加,视频间的平均内容相似度显著提高
    • 同时,对应的子树大小(即共享该前缀的视频数量)急剧减少
  • 结论:这定量地证明了语义ID的前缀确实代表了越来越精细和具体的语义概念。前缀越长,所标识的视频集合在内容上越相似、越具体。
内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练,到执行分类及结果优化的完整流程,并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程与关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优与结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置与结果后处理环节,充分利用ENVI Modeler进行自动化建模与参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
### 国家标准(GB/T 7714)下的引文格式 根据中国国家标准 GB/T 7714,会议论文的标准引文格式应包括作者、论文标题、会议名称、出版地、出版社及年份等信息。对于论文 *π0.5: A VLA with Open-World Generalization*,若其发表于国际会议,其标准引文格式可表示如下: > 作者列表. A VLA with Open-World Generalization[C]//Proceedings of the International Conference on Robotics and Automation. [出版地]: IEEE, 2025. 该格式遵循会议论文的标准结构,适用于大多数在国际会议上发表的研究论文。 ### 引文格式的生成逻辑 在 GB/T 7714 标准中,会议论文需使用文献类型标识 `[C]`,并完整书写会议全称。例如,若论文发表于 *International Conference on Robotics and Automation (ICRA)*,则应使用会议全称而非缩写,并标明会议论文集的出版单位(如 IEEE 或 OpenReview)及出版年份。 若论文尚未提供完整信息(如作者、会议名称、出版年份等),应依据已知信息进行合理推断,并在可获取准确信息后进行更新。例如,若论文为预印本形式发布于 OpenReview,则可标注出版地为电子出版形式[^1]。 ### 示例代码(用于文献管理工具导入) 若使用 Zotero、EndNote 或其他文献管理工具,可以使用如下 BibTeX 格式进行导入: ```bibtex @inproceedings{vla_openworld_pi0_5, author = {Author1, A. and Author2, B. and Author3, C.}, title = {A VLA with Open-World Generalization}, booktitle = {Proceedings of the International Conference on Robotics and Automation}, year = {2025}, publisher = {IEEE} } ``` 该格式支持在 LaTeX 或 Word 文档中引用,并可自动调整引文样式以匹配 GB/T 7714 要求。 ### 相关问题
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值