《计算广告学之内容匹配广告&展示广告原理、技术和实践》学习笔记

本文为《计算广告学之内容匹配广告&展示广告原理、技术和实践》的学习笔记,深入探讨了如何运用计算方法进行广告内容匹配,以及展示广告的运作机制和技术实现,涵盖了从系统架构到实际应用的全方位理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



第1章 内容匹配广告投放技术:网盟概述&工程架构
1.1网盟概述

角色
关注
网站主(Publishers) 用户体验,赚钱
广告主(Advertisers) 投资回报率ROI
网民 有用的信息,良好的体验
网盟(Ad network/Matcher) 赚钱,找到网名和广告的最佳匹配,实现流量价值,平衡各方利益、构建可持续发展的生态圈

1.2网盟广告系统的工程架构

页面特征子系统:爬虫,收集到大量网页,基础服务处理页面,得到页面的特征。页面的主题,分类等
用户特征子系统:
CTR预估子系统:根据过去用户对广告的互动行为的训练,预测以后用户对广告的点击概率。
检索子系统:核心系统
广告特征子系统:

网盟广告检索系统— 数据角度
大计算量:每天100亿+广告检索量和行为采集量,相当于每秒11.5万QPS.且高速增长。
大数据量:分布式离线挖掘。每天P级规模数据入库,T级别特征产出,积累时间大于一年。在线实时特征规模在T级别,Key值数量100亿规模。
高增长率:数据、流量、机器增长规模每年超过50%。
系统机器数量:10000+高性能服务器。

网盟广告检索系统— 指标角度
高实时性:实时更新用户、网页、广告数据。系统100ms内完成实时检索。每秒10W+实时数据入库,生效时间<1s
高容错性:如果每台机器异常概率为0.1%,1W台机器的话,每天都会有10台机器故障。
     实时检索服务:故障实时识别、流量自动切换到正常机器。
     特征存储服务:数据多备份、持久化,重启快速恢复。
     数据推送服务:数据推送状态快速迁移,备机提供服务。
高实验性:数据驱动系统演化,每天并发上百个实验。
高一致性:涉及到钱的问题,张冠李戴会非常麻烦。
高扩展性:数据增长迅速,系统需要支持热机扩容。
高可用性:7*24小时服务稳定,每天100亿次检索,出错影响用户体验。

1.3工程架构解决的技术问题
网盟广告检索系统--技术  
产品技术 关键词定向,回头客定向,兴趣定向
应用技术 分层实验框架,用户识别,高性能检索
基础技术 分布式计算(MapReduce),流式计算(Stream),高性能计算(Hadoop),KV存储引擎(Redis),资源定位(ZooKeeper),消息队列(MQ)

1.3.1用户识别
用户识别技术新动向—— Cookie Matching(Cookie Mapping)

1.3.2分层实验框架:为了支持更多的实验
实验样本要具有可比性

缺点:
     实验容量有限。可用流量只有100%,没有分配到流量的机器需要等待。
     实验和机器强耦合。不同机器部署的实验不同,实验流量变化时需要同时调整机器部署。
     维护代价大。机器部署易购数量和实验数量对应,增加维护难度。
优点:
     实验只消耗部署机器的资源。
     结构简单,实验独占流量,排查问题简单,不存在相互影响。
如何提高实验的并发度?通过分层流量复用。
分层模型:每一层只能选择一个实验命中。层和层之间解耦,相互不影响。
E1和E2共享100%流量用于实验;
E3独享100%流量用于实验。
一份流量可以同时命中E1、E3、E4、E5。
通过给流量打标签,来判断流量命中了哪些实验。
缺点:
     机器物理部署的应用包含所有实验代码,浪费资源,主要是内存。
     存储性资源变成限制实验数量的主因。
优点:
     实验和机器解耦。所有机器都可能命中实验,流量变化时不用调整部署。
     实验数量不受限于流量大小,取决于实验设计。
     实验机器同构,维护、发布简单。

1.3.3高性能检索
1.3.3.1高性能检索的计算模型
核心:Query构造,倒排索引,归并算法,大根堆。
简单的筛选在前面,快速的筛选广告。复杂的计算放在最后,只需要对少量的广告进行计算。=>系统更高效
1.3.3.1高性能检索的网络模型
检索程序是同步模型,计算量大。网络程序异步模型。
慢Query的问题,有同步模型引入。同步模型中慢Query可能把系统拖挂。
慢Query的产生原因:攻击行为,实验引入(流量小,但是实验性能低),服务Bug,网络抖动(机房网络不稳定),机器异常。
慢Query的监控和处理策略:
     慢Query的比例波
&lt;think&gt;首先,用户的问题是:&ldquo;我想了解广告召回的概念工作原理请问广告召回机制的定义及实现方式&rdquo;。我需要基于系统级指令来回答。系统级指令:-所有行内数学表达式必须使用$...$格式。-独立公式必须使用$$...$$格式并单独成段。-LaTeX语法正确。-使用中文回答。-生成相关问题。-回答中引用的段落末尾自然地添加引用标识,例如:[^1]用户可见层:-回答结构清晰,帮助用户逐步解决问题。-尽量保证回答真实可靠。-参考站内引用,但用户提供的引用是关于广告排序、召回等的,我应该尽量基于这些内容,因为它们提供了背景。用户提供的引用:-[^1]:关于广告排序机制的目标,包括物料、流量价值、用户体验、平台收益、拍卖机制。-[^2]:关于召回业务的职责,全链路排序的目标一致性,召回作为上游操作,需要捕捉下游梯度。-[^3]:推荐系统计算广告技术栈相似,条目根据场景定义。-[^4]:AI大模型在电商搜索推荐中的应用,知识分享机制。用户的问题是关于广告召回的定义实现方式,所以我需要聚焦在召回机制上。结构化回答:1.**定义广告召回机制**:解释什么是广告召回。2.**工作原理**:描述召回机制是如何工作的。3.**实现方式**:讨论常见的实现方法。4.**生成相关问题**:在回答结束后,生成相关问题。基于引用:-引用[^2]直接谈到了召回业务,作为广告引擎最上游的职责,负责广告供给。-引用[^1]提到物料(召回/粗排),所以召回是提供初步候选集。-引用[^3][^4]提供相关背景,但召回更具体。关键点:-定义:广告召回机制是广告系统中的第一步,负责从海量广告库中快速筛选出与用户查询或上下文相关的候选广告集合。-工作原理:通常基于用户特征、上下文特征广告特征进行匹配。-实现方式:可能包括基于规则的方法、协同过滤、内容匹配、向量检索等。现代方法可能使用AI模型。在回答中引用:-自然地添加引用标识。例如,当提到召回职责时,引用[^2]。数学表达式:用户的问题是关于广告召回,可能没有数学公式。但如果提到一些概念,如相似度计算,我可以使用数学表达式。-例如,向量相似度:$\cos(\theta)=\frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{a}\|\|\mathbf{b}\|}$,但这可能不必要。确保如果使用,格式正确。生成相关问题:在回答结束后,添加一个部分&ldquo;相关问题&rdquo;,列出3-4个问题。回答结构:-引言:简要介绍广告召回。-定义部分:清晰定义。-工作原理:逐步解释。-实现方式:列出常见方法。-结论:总结重要性。-相关问题。用中文回答。&lt;/think&gt;### 广告召回机制的定义及实现方式 广告召回机制是计算广告系统中的核心组件,负责在广告投放的早期阶段,从海量广告库中快速筛选出与用户查询或上下文相关的候选广告集合,作为后续排序(如粗排精排)的输入。它在提升系统效率推荐相关性方面扮演着关键角色,尤其在大规模广告平台(如电商或信息流广告)中,召回机制直接影响用户体验平台收益。以下我将逐步解释广告召回机制的定义、工作原理及常见实现方式,帮助您全面理解。 #### 1. **广告召回机制的定义** 广告召回机制(Ad Recall Mechanism)是指在广告系统中,基于用户特征(如浏览历史、地理位置)、上下文特征(如搜索词、页面内容广告特征(如广告标签、类别),从全量广告池中初步检索出潜在相关的广告候选集的过程。其目标是在保证低延迟的前提下,最大化候选集的相关性多样性,避免下游排序阶段因候选集过大而计算开销过高。召回机制是广告系统的&ldquo;上游操作&rdquo;,类似于推荐系统中的召回阶段,它需要高效处理海量数据,并为后续机制提供高质量的输入[^2]。例如,在电商广告中,召回机制可能从数百万商品广告中筛选出数百条候选,确保这些候选在主题或用户兴趣上与当前流量匹配。 #### 2. **广告召回机制的工作原理** 广告召回的工作原理可以分解为几个关键步骤,这些步骤通常在一个实时或近实时的数据流中执行: - **步骤1:输入特征提取** 系统首先收集用户特征(如用户ID、历史点击率)、上下文特征(如当前搜索关键词&ldquo;手机降价&rdquo;)广告特征(如广告标题、类目)。这些特征被转化为数值型向量,以便后续计算。例如,用户兴趣向量可通过Embedding技术表示。 - **步骤2:候选检索与匹配** 基于提取的特征,召回机制使用匹配算法快速筛选候选广告。核心原理是通过相似度计算或规则过滤,找出与用户意图最接近的广告。常见匹配方式包括: - **内容匹配**:直接比较用户查询广告文本的相似度,例如使用TF-IDF或余弦相似度公式:$ \cos(\theta) = \frac{\mathbf{u} \cdot \mathbf{a}}{\|\mathbf{u}\| \|\mathbf{a}\|} $,其中 $\mathbf{u}$ 是用户查询向量,$\mathbf{a}$ 是广告向量。 - **行为协同过滤**:利用用户历史行为数据(如点击或购买记录),预测相似用户可能感兴趣的广告。公式化表示为:如果用户A用户B行为相似,则推荐用户B喜欢的广告给用户A。 - **上下文过滤**:结合页面内容或时间因素,例如在体育新闻页面召回体育用品广告。 - **步骤3:候选集生成与输出** 匹配后的候选广告被聚合为一个初步集合(通常大小为100-1000条),并输出给下游排序模块。在这一步,机制需确保多样性(避免同类广告扎堆)覆盖率(覆盖不同广告主),以优化整体效果[^1][^2]。 整个工作流程强调高效性(毫秒级响应)可扩展性,召回机制作为上游环节,需要捕捉下游排序模块的&ldquo;反馈梯度&rdquo;(如CTR预估误差),动态调整检索策略,以实现全链路目标一致性[^2]。 #### 3. **广告召回机制的实现方式** 实现广告召回机制依赖于多种算法技术,常见方式包括: - **基于规则的召回**:使用预定义规则(如关键词匹配或类目过滤)快速筛选候选。例如,用户搜索&ldquo;笔记本电脑&rdquo;时,召回所有电子类广告。优点是简单高效,但灵活性低,易受规则偏差影响。 - **基于向量检索的召回**:利用AI模型(如BERT或Transformer)将用户广告映射到高维向量空间,通过近似最近邻搜索(ANN)算法(如Faiss或HNSW)高效检索相似广告。例如,在大模型中,用户向量广告向量的点积 $ \mathbf{u}^\top \mathbf{a} $ 用于排序候选[^4]。这种方法在召回阶段处理大规模数据时性能优越,支持实时个性化。 - **混合召回通道**:结合多个召回策略(如协同过滤、内容匹配热门广告召回),通过加权融合生成最终候选集。这提升了多样性鲁棒性。例如,电商平台可能同时使用用户行为召回(基于历史点击)语义召回(基于查询理解),并通过A/B测试优化权重[^2][^3]。 - **工程优化**:在系统层面,召回机制常部署在分布式框架(如Spark或Flink)上,利用倒排索引或内存数据库加速检索。同时,结合在线学习机制,实时更新特征模型,以适应动态广告环境[^4]。 召回机制的实现需平衡效果效率:过度追求召回率(Recall)可能导致候选集噪声大,而过度过滤会损失潜在相关广告。因此,实践中常通过离线指标(如Hitrate)在线实验(如CTR提升)评估优化[^2]。最终,召回机制与下游排序紧密集成,形成&ldquo;召回-排序&rdquo;流水线,共同提升广告系统的整体表现[^1][^3]。 #### 总结 广告召回机制是广告系统的基石,它通过高效检索初步候选集,解决了海量数据下的可扩展性问题。其核心在于特征驱动的匹配多样性控制,确保为后续拍卖机制提供高质量输入。随着AI大模型的发展,召回机制正从规则式向学习式演进,通过知识共享全链路优化,进一步提升广告效果[^2][^4]。 如果您有具体场景(如电商或信息流广告),我可以提供更针对性的分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值