大模型浪潮下的搜广推革命：快手如何重构万亿流量？

原创于 2025-12-20 15:06:04 发布 · 367 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#重构 #人工智能 #chatgpt #agent #langchain #llama #github

对于很多普通用户来说，也许 ChatGPT、DeepSeek 这样的大语言模型是他们第一次真切地体会到 AI 的能力。

但实际上，AI 早已渗透得无处不在。在大模型还未出现之前，算法工程师们就已经凭借「搜索、广告、推荐」三驾马车，深刻地影响了每个人获取信息的方式——我们在手机上看什么、买什么，背后都有一套复杂的推荐系统在工作。

这些看似传统的「搜广推」算法，每天都在处理着万亿级流量。可以说，搜广推是所有互联网公司的核心业务，支撑着最为关键的用户留存和营收转化。

然而，在过去很长一段时间里，搜广推的底层架构没有发生根本性变化，甚至陷入了某种瓶颈。

来到大模型时代，一个很直接的想法是：我们如何借助生成式 AI 重塑搜广推业务？但提出想法很简单，落地很难。据我了解，很多团队都在做尝试，但用到生产环境里极少。

最近，快手举办了了一场题为「生成式推荐系统新范式」的技术沙龙，展示他们如何运用生成式 AI 对搜广推系统进行端到端的彻底重构。其中分享的都是一线工程师宝贵的实战经验，而且在快手的生产环境得到了验证，非常有价值，我听完感觉收获很多。

传统级联漏斗的四大瓶颈

要理解生成式 AI 为什么能带来新的范式，首先要明白旧范式的问题在哪里。

传统的推荐系统，普遍采用一种 「级联漏斗」 式的架构，简单来说就是把数据层层过筛子，最终留下展示给用户的信息：

1. 召回（Recall）：从亿万级别的物料库中，快速筛选出几千个可能相关的候选项。
1. 粗排（Pre-ranking）：用一个相对简单的模型，对这几千个候选项进行初步排序，筛选出几百个。
1. 精排（Ranking）：用一个非常复杂的模型，对这几百个候选项进行精准排序。
1. 重排（Re-ranking）：考虑具体的业务规则，对精排结果进行微调，最终呈现给用户。

这是过去十年非常成熟的做法，在实践中也很有效。但放在当前来看，也存在出许多问题：

1. 算力碎片化：推荐链路被拆分成多个模块，每个模块部署着众多小模型。算力被严重分散，导致每个模型能分配到的资源都很少，使得整个系统的硬件利用率极低。比如快手推荐大模型资深算法专家王诗瑶在分享中提到，推荐系统的 MFU（Model FLOPs Utilization，模型浮点运算利用率）甚至不到 1%。
1. 目标不一致：级联架构的每一层都有自己独立的优化目标。召回模型的目标是「找全」，精排模型的目标是「排准」。各模块各自为政，很容易出现目标冲突，导致全局最优解难以达成。
1. 误差累积：前一阶段的错误会直接影响后一阶段。如果召回阶段漏掉了一个用户可能喜欢的视频，那么无论后续的排序模型多么强大，也没办法把这个视频捞出来。
1. 技术迭代难：一些先进的技术范式，比如强化学习，在这种架构下很难应用。强化学习需要环境的实时反馈，但用户的真实反馈发生在最终的曝光阶段。这个信号很难有效地传递回最前端的召回模块。

总之，这套诞生于十年前算力背景下的工程产物，已经限制了推荐系统的进一步发展。快手的判断是：是时候放弃这种结构，转向真正的 端到端（End-to-End） 范式了。

OneRec：从「筛选」到「生成」，用一个模型重构推荐全链路

推荐系统的本质，是预测「用户下一个会感兴趣的内容是什么」。传统方法是「判别式」的，即对每个候选内容打分，然后排序。生成式推荐的做法则完全不同，它试图直接「生成」用户会喜欢的内容。

快手提出的解决方案是 OneRec，一个端到端的生成式推荐系统。它的核心思想是：用一个统一的生成式大模型，将推荐问题转化为一个类似语言模型的 「序列生成」 问题。

这套系统目前已在快手主站、极速版等多个核心场景全量上线，带来了显著的业务提升。

OneRec 的第一个版本采用 Encoder-Decoder 架构，基本流程如下：

1. 用一个多模态大模型将每个视频编码成一组语义 ID（Semantic ID，简称 SID），可以理解为视频的「身份证号码」。
1. Encoder 部分负责理解用户，将用户的历史行为序列进行编码。
1. Decoder 部分基于用户的编码信息，自回归地（token by token）生成下一个最有可能被喜欢的视频的 SID。
1. 最后，通过一个 Reward System 对生成结果进行偏好对齐和微调。

OneRec V1 验证了范式可行性，但很快也遇到了瓶颈：模型规模扩展到 3B 参数以上时，性能和效果都上不去了。

团队复盘后发现，V1 超过 90% 的计算量都消耗在 Encoder 部分（处理用户历史序列），而真正进行决策、接触 Loss 的 Decoder 部分只占了不到 10% 的算力。

王诗瑶打了一个比方：「你准备了一桌满汉全席，最后只吃了一盘拍黄瓜。」这种算力分配不合理，导致投入再多算力，效果提升也十分有限。

因此，OneRec V2 版本设计了 Lazy Decoder-Only 架构。它将 Encoder 的计算压缩到极致，只保留最基础的特征映射，将几乎所有的计算资源都堆给 Decoder。

同样参数量的模型，V2 的 FLOPs 只有 V1 的 6%。这意味着，在同等算力预算下，V2 可以训练更大规模的模型。通过这个架构，OneRec 成功将模型从 3B 扩展到了 8B，并且其 Loss 下降曲线完美符合大模型领域的 Scaling Law。

如果说 OneRec V2 解决了效率和扩展性问题，那么最新的 OneRec-Think 则是在探索推荐系统的「智能边界」。它引入了大型语言模型中的 「思维链」 能力，让推荐系统不仅能给出结果，还能解释「为什么」。

OneRec Think 将用户的行为日志和自然语言进行对齐，构造了大量的图文交错样本，让模型学会在一个统一的语义空间里理解这两种模态。

团队还分享了 OneRec Think 的训练方法：

1. 从用户全量行为中，找出与目标视频最相似的几个历史视频。
1. 将这些提纯后的视频（包含 SID 和标题）和目标视频一起，喂给第一阶段对齐好的模型，让它生成一个「推荐理由」。
1. 最后，将「原始行为序列 + 推荐理由 + 目标视频」构造成一条 CoT 样本，对模型进行 SFT 微调。

经过这样训练的模型，在进行推荐时，会先生成一段「思考过程」，分析用户的历史偏好，然后再给出推荐结果。

具备思考能力后，OneRec 甚至可以进行交互式推荐，能够更好地理解用户的意图，结合长期偏好动态调整推荐的结果。

OneRec 的演进之路表明，生成式推荐不仅可行，而且正在从一个简单的「生成器」，进化为一个具备规模化扩展能力、甚至拥有初步推理能力的「智能体」。

下一代推荐排序：从「人工规则」到「端到端融合」

在传统推荐漏斗中，精排之后的 「重排」 或 「排序机制」 环节非常依赖算法工程师手写的大量规则和公式，这种方式个性化能力有限，难以处理复杂的目标冲突。

快手短视频推荐算法链路机制策略技术负责人徐晓晓分享了他们如何将这一环节 「模型化」，实现端到端的多目标融合。

解决方案包括四部分：

1. 用 Transformer 结构来建模视频之间的相互关系，实现候选集内的比较关系感知。
1. 通过多种方案，定义用户满意度作为学习目标；
1. 提升算法可解释性，平衡多个优化目标之间的冲突；
1. 重新定义优化目标为 「互动效率」，消除混淆因子，解决离在线指标不一致问题。

这个工作将过去依赖人工经验的「调参」环节，变成了一个可数据驱动、自适应优化的模型，是推荐系统走向完全端到端的重要一步。

OneSearch：为电商搜索打造的生成式框架

搜索场景下有明确的用户意图（Query），所以对 「相关性」 要求更高。同时，电商场景的商品标题又充斥着大量为了 SEO 而堆砌的噪声词语。

快手货架电商搜索与推荐算法负责人杨一帆分享了他们如何构建业界首个工业级部署的电商搜索端到端生成式框架 OneSearch。

OneSearch 的核心挑战同样在于「编码」，即如何为充满噪声的商品信息，生成一个既能表达核心属性又方便模型生成的高质量 SID。

团队提出了RQ-OPQ 编码，在 RQ-KMeans 之后，用一个平行的 OPQ 编码器专门对残差进行编码，把独立编码率从 68% 提升到了 92% 以上。

这意味着模型能更精确地分辨每一个独立的 SKU，为后续的精准生成奠定了基础。

OneSearch 的实践证明，只要把编码这一基础环节进行极致优化，生成式框架完全有能力应对电商搜索这种高难度、强约束的复杂场景。

G4RL：生成模型+强化学习解决出价问题

在投放场景下，广告出价本质上是一个序列决策问题：广告主有一个总预算，系统需要在一天内进行成千上万次竞价，动态调整出价，以在满足成本约束的前提下，最大化转化效果。

快手商业化算法部客户机制中台中心负责人蔡庆芃介绍了他们提出的 G4RL（Generative-model FOR Reinforcement Learning） 范式，将生成模型的序列建模能力与强化学习的价值优化能力相结合。

说实话，这块我还真没接触过，不过从团队分享的实际效果上看，G4RL 已经为快手广告收入带来了超过 3% 的提升。

这也再次证明，生成式技术不仅是一种模型结构的变化，更是一种强大的、能够优化长期价值的决策引擎。

生成式搜广推的范式、成本与未来

技术沙龙的最后还有个圆桌环节，里面也有很多信息量很高的观点，我也认真做了笔记。

生成式 AI 绝非伪范式，而是一次深刻的技术跃迁

生成式 AI 的新范式将搜广推从传统的「相关性预测」问题，提升到了「用户意图理解与推理」的新高度。

未来的交互形态（如对话式推荐）必然需要生成式 AI 的能力。端到端的框架，为强化学习（RL）这类先进技术在业务中的应用创造了必要条件，使得优化全局、长期价值成为可能。

无需过度焦虑成本，技术突破带来的价值远超投入

大模型意味着更高的算力成本，是否会成为落地的阻碍？

技术专家认为，硬件成本在摩尔定律下持续下降，而新范式带来的商业价值是持续增长的。而且，工业界有大量手段可以用于优化 ROI。

比如，通过分析模型的 Scaling Law 找到最佳性价比的尺寸，或使用模型蒸馏等技术，在不显著损失效果的前提下降低推理成本。广告出价等场景的 ROI 尤其高，一次性的技术投入可以带来持续的收入增长。

搜广推的未来将有无限可能

随着生成式 AI 的发展，未来搜广推的界限将彻底模糊，演化为无处不在的 「个人信息助理」，交互方式将不再是单向的「信息流列表」，而是直接满足用户需求的智能体。

未来的推荐系统可能不再是从内容库里挑选，而是直接为用户生成他想看的内容。

Agent 的能力也将全面应用于广告等领域，为广告主提供从素材生成到投放优化的全流程自动化服务。

结语

回到最初的问题：生成式 AI 是搜广推的未来，还是昙花一现的伪范式？

听完快手技术团队的正常分享后，我觉得答案已经很清晰了：生成式 AI 让搜广推从「筛选信息」走向「理解意图并直接生成答案」，这显然是颠覆性的范式转变。

这种新范式最大的价值，在于它真正打通了算力、算法和业务目标，为系统注入了规模化扩展（Scaling）和推理（Reasoning）的能力，让搜广推第一次有了进化出「智能」的可能。

快手展示的 OneRec、OneSearch 和 G4RL，已经不再是传统级联漏斗上的工程优化，而是用一个统一的、端到端的生成式框架，对推荐、搜索、广告进行系统性的重构。

这些都是来自生产一线的宝贵分享，推荐大家多多了解相关的工作进展，一定会对大模型落地业务有新的思考和帮助。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

大模型浪潮下的搜广推革命：快手如何重构万亿流量？

传统级联漏斗的四大瓶颈

OneRec：从「筛选」到「生成」，用一个模型重构推荐全链路

下一代推荐排序：从「人工规则」到「端到端融合」

OneSearch：为电商搜索打造的生成式框架

G4RL：生成模型+强化学习解决出价问题

生成式搜广推的范式、成本与未来

生成式 AI 绝非伪范式，而是一次深刻的技术跃迁

无需过度焦虑成本，技术突破带来的价值远超投入

搜广推的未来将有无限可能

结语

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

L5阶段：专题集丨特训篇【录播课】