谷歌TIGER爆火！生成式召回颠覆推荐系统：用语义ID破解冷启动+多样性难题，3大数据集性能碾压传统模型

最新推荐文章于 2025-11-23 19:13:18 发布

原创

最新推荐文章于 2025-11-23 19:13:18 发布 · 990 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #DeepSeek #deep learning #python #推荐算法 #推荐系统

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列一百一十九
总结

GPT多模态大模型与AI Agent智能体系列一百一十九

谷歌TIGER爆火！生成式召回颠覆推荐系统：用语义ID破解冷启动+多样性难题，3大数据集性能碾压传统模型

2023年谷歌提出的TIGER模型，凭借“生成式召回”思路打破传统推荐系瓶颈，成为近年来推荐领域的里程碑研究。它以“语义ID+seq2seq生成”为核心，重构了从物品表示到检索的全流程，不仅在三大公开数据集上实现性能跃升，更解决了冷启动、推荐多样性等行业痛点，为大规模推荐系统提供了全新范式。

一、传统推荐系统的“三大困境”，TIGER直击痛点

长期以来，主流推荐系统依赖“双编码器+ANN搜索”模式：将用户和物品嵌入同一向量空间，通过近似最近邻搜索匹配候选物品。但这种模式存在难以突破的局限：

物品表示低效：用随机原子ID作为物品特征，无法共享相似物品知识，且数十亿级物品的嵌入存储消耗巨大；
反馈循环固化：模型依赖用户历史交互数据，易陷入“越推越窄”的困境，对新物品（冷启动场景）几乎无法处理；
泛化能力薄弱：依赖索引构建，新物品需重新训练或更新索引，难以适配动态变化的物品语料库。

而TIGER的核心创新——语义ID生成+生成式检索，从根源上解决了这些问题。

二、TIGER两大核心模块：从语义ID到生成式召回的全链路设计

TIGER的框架分为“语义ID生成”和“生成式推荐训练”两阶段，环环相扣实现端到端检索：

1. 语义ID生成：用RQ-VAE给物品“编有意义的码”

传统物品ID是随机、无语义的，而TIGER的“语义ID”是基于物品内容特征生成的离散token元组，核心工具是残差量化变分自编码器（RQ-VAE）：

第一步：内容嵌入。用预训练的Sentence-T5模型，将物品的标题、品牌、类别等文本特征，转化为768维的语义嵌入；
第二步：层次化量化。RQ-VAE通过3层残差量化（每层一个独立codebook，大小256），将连续嵌入转化为3个codeword组成的元组；
第三步：去碰撞处理。若多个物品映射到同一语义ID，附加第4个token确保唯一性，最终形成4长度的唯一语义ID（如(10,21,35,0)）。

这种设计的关键优势在于层次化语义：语义ID的前几层codeword对应“粗粒度类别”，后几层

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。