谷歌TIGER爆火!生成式召回颠覆推荐系统:用语义ID破解冷启动+多样性难题,3大数据集性能碾压传统模型

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百一十九

谷歌TIGER爆火!生成式召回颠覆推荐系统:用语义ID破解冷启动+多样性难题,3大数据集性能碾压传统模型

2023年谷歌提出的TIGER模型,凭借“生成式召回”思路打破传统推荐系瓶颈,成为近年来推荐领域的里程碑研究。它以“语义ID+seq2seq生成”为核心,重构了从物品表示到检索的全流程,不仅在三大公开数据集上实现性能跃升,更解决了冷启动、推荐多样性等行业痛点,为大规模推荐系统提供了全新范式。

一、传统推荐系统的“三大困境”,TIGER直击痛点

长期以来,主流推荐系统依赖“双编码器+ANN搜索”模式:将用户和物品嵌入同一向量空间,通过近似最近邻搜索匹配候选物品。但这种模式存在难以突破的局限:

  1. 物品表示低效:用随机原子ID作为物品特征,无法共享相似物品知识,且数十亿级物品的嵌入存储消耗巨大;
  2. 反馈循环固化:模型依赖用户历史交互数据,易陷入“越推越窄”的困境,对新物品(冷启动场景)几乎无法处理;
  3. 泛化能力薄弱:依赖索引构建,新物品需重新训练或更新索引,难以适配动态变化的物品语料库。

而TIGER的核心创新——语义ID生成+生成式检索,从根源上解决了这些问题。

二、TIGER两大核心模块:从语义ID到生成式召回的全链路设计

TIGER的框架分为“语义ID生成”和“生成式推荐训练”两阶段,环环相扣实现端到端检索:

1. 语义ID生成:用RQ-VAE给物品“编有意义的码”

传统物品ID是随机、无语义的,而TIGER的“语义ID”是基于物品内容特征生成的离散token元组,核心工具是残差量化变分自编码器(RQ-VAE)

  • 第一步:内容嵌入。用预训练的Sentence-T5模型,将物品的标题、品牌、类别等文本特征,转化为768维的语义嵌入;
  • 第二步:层次化量化。RQ-VAE通过3层残差量化(每层一个独立codebook,大小256),将连续嵌入转化为3个codeword组成的元组;
  • 第三步:去碰撞处理。若多个物品映射到同一语义ID,附加第4个token确保唯一性,最终形成4长度的唯一语义ID(如(10,21,35,0))。

这种设计的关键优势在于层次化语义:语义ID的前几层codeword对应“粗粒度类别”,后几层

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值