17、广告点击优化：策略与模型解析

最新推荐文章于 2025-10-26 11:25:21 发布

milk5

最新推荐文章于 2025-10-26 11:25:21 发布

阅读量72

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《顺序决策分析与建模》：Python建模的实际应用文章标签：广告点击优化策略设计不确定性建模

本文链接：https://blog.youkuaiyun.com/milk5/article/details/150575315

解读《顺序决策分析与建模》：Python建模的实际应用专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

广告点击优化：策略与模型解析

在当今数字化的广告领域，优化广告点击效果是提高广告投放效率和收益的关键。本文将深入探讨广告点击优化的相关内容，包括不确定性建模、策略设计以及客户属性扩展等方面，并通过具体的案例和练习来加深理解。

1. 不确定性建模

在广告点击优化中，存在三种形式的不确定性：广告点击量 (K_{n + 1})、点击广告后的收益 (\hat{R} {n + 1}) 以及未知参数 (\theta) 的真实值。
- 广告点击量 (K_{n + 1}) ：我们假设 (K {n + 1}) 可以用逻辑函数来描述，即：
[P_{click}(\theta, x) = P[K_{n + 1} = 1|\theta, x = x_n] = \frac{e^{\theta_{const} + \theta_{bid}x}}{1 + e^{\theta_{const} + \theta_{bid}x}}]
需要注意的是，这只是一个拟合曲线，实际数据中的 (K_{n + 1}) 值可能并不完全符合该逻辑回归模型。
- 点击广告后的收益 (\hat{R}_{n + 1}) ：我们假设可以从真实数据流中直接观察到 (\hat{R}_{n + 1})，因此不需要为这些随机变量建立正式的概率模型。
- 未知参数 (\theta) ：我们假设 (\theta \in \Theta = {\theta_1, \ldots, \theta_K})，这也是一种近似。虽然有方法可以放宽样本集的要求，但逻辑会变得更加复杂，且教育价值不大。

2. 策略设计

为了优化广告点击效果，我们将探索三种学习策略：
- 纯开发策略（Pure exploitation） ：该策略总是根据当前估计选择看起来最优的出价。计算过程如下：
首先，计算期望收益 (E{\hat{R} {n + 1}K {n + 1}})：
[E{\hat{R} {n + 1}K {n + 1}} = E{\hat{R} {n + 1}|K {n + 1} = 1}Prob[K_{n + 1} = 1|\theta = \theta_k] = \bar{R} nP {click}(\theta, x)]
然后，求关于出价 (x) 的导数：
[\frac{d\bar{C}(x)}{dx} = (\bar{R} n - x)\frac{dP {click}(\theta, x)}{dx} - P_{click}(\theta, x)]
其中，(\frac{dP_{click}(\theta, x)}{dx} = \frac{\theta_1e^{-\theta_0 - \theta_1x}}{(1 + e^{-\theta_0 - \theta_1x})^2})。
最后，找到使 (\frac{d\bar{C}(x)}{dx} = 0) 的出价 (x^ )，即最优出价。令 (X_{explt}(S_n)) 为满足 (\frac{d\bar{C}(x)}{dx} = 0) 的出价 (x^ )。这是一种贪心策略，属于 CFA 类，但没有可调参数。
- 激励策略（An excitation policy） ：纯开发策略的一个潜在局限性是忽略了尝试更广泛出价范围以帮助学习 (\theta) 正确值的价值。激励策略通过添加一个随机噪声项（在工程中称为“激励”）来引入探索，其策略为：
[X_{excite}(S_n|\rho) = X_{explt}(S_n) + \varepsilon(\rho)]
其中，(\varepsilon(\rho) \sim N(0, \rho^2))。(\rho) 是可调参数，用于控制策略中的探索量。如果 (\rho) 太小，可能没有足够的探索；如果 (\rho) 太大，可能会选择远离最优的出价，且可能无法从学习中获得任何好处。
- 信息价值策略（A value of information policy） ：该策略旨在最大化未来信息的价值。我们假设在第 (n) 次实验后估计的参数 (\theta_n) 是正确值，并根据该估计选择出价。现在想象我们出价 (x_n = x) 并观察 (K_{n + 1}) 和 (\hat{R} {n + 1})，然后使用这些信息更新 (\theta {n + 1}) 和 (\bar{R} {n + 1}) 的估计值，进而做出更好的决策。
为了简化分析，我们假设 (K {n + 1} = 1) 的概率为 (P_{click}(\theta, x))，(K_{n + 1} = 0) 的概率为 (1 - P_{click}(\theta, x))，并且 (\bar{R} {n + 1} \approx \bar{R}_n)。我们可以将其视为一个近似前瞻模型，其中 (\bar{R}_n) 保持不变。
在这个前瞻模型中，我们使用更新方程（12.3）来计算概率 (p_n^k = Prob[\theta = \theta_k|H_n])，并将更新后的概率表示为 (\tilde{p} {n,n + 1}^k(\tilde{K} {n,n + 1}))。由于 (\tilde{K} {n,n + 1}) 可以取两个结果（0 或 1），我们将有两个可能的 (\tilde{p} {n,n + 1}^k(\tilde{K} {n,n + 1})) 值。
最后，我们可以计算当前出价 (x_n = x) 的期望贡献 (\bar{C} n(x))：
[\bar{C}_n(x) = \sum {k = 1}^{K} {P_{click}(\theta = \theta_k, x) \tilde{C} {n,n + 1}(1) + (1 - P {click}(\theta = \theta_k, x)) \tilde{C} {n,n + 1}(0)} p_n^k]
我们的策略是选择使 (\bar{C}_n(x)) 最大化的出价 (x)。假设我们将出价离散化为一个集合 (X = {x_1, \ldots, x_M})，则信息价值策略可以表示为：
[X {VoI}(S_n) = \arg \max_{x \in X} \bar{C}_n(x)]
这是一种直接前瞻近似（DLA）类的策略。信息价值策略非常强大，但计算难度较大，且没有可调参数。

3. 策略比较

策略	优点	缺点
纯开发策略	计算简单，属于贪心策略	忽略探索，可能陷入局部最优
激励策略	引入探索，可帮助学习 (\theta) 的正确值	需要调整参数 (\rho)，参数选择不当可能影响效果
信息价值策略	最大化未来信息价值，无调参问题	计算复杂

4. 客户属性扩展

假设我们知道客户的位置（区域或最近的主要城市），用 (L) 表示。如果我们认为每个区域的行为不同，可以用 (\theta_{\ell}) 来索引 (\theta)。但这样需要估计大量的模型，参数数量较多。
另一种方法是指定一个形式为：
[Prob_n[K_{n + 1} = 1|\theta] = \frac{e^{U(x,L|\theta)}}{1 + e^{U(x,L|\theta)}}]
的模型，其中效用函数为：
[U(x, L|\theta) = \theta_{const} + \theta_{bid}x + \sum_{\ell = 1}^{L} \theta_{loc}^{\ell}I_{\ell = L}]
这种模型更紧凑，因为我们假设常数项 (\theta_{const}) 和出价系数 (\theta_{bid}) 不依赖于位置，只需要估计位置系数 (\theta_{loc}^{\ell})。

5. 总结

通过以上分析，我们可以得出以下结论：
- 广告点击优化是一个涉及多种不确定性的纯学习问题，需要使用非线性信念模型。
- 过渡函数包括对未知参数 (\theta) 等于特定值 (\theta_k) 的概率 (p_n^k) 的贝叶斯更新。
- 三种策略各有优缺点，纯开发策略简单但缺乏探索，激励策略引入探索但需要调参，信息价值策略强大但计算复杂。
- 考虑客户属性可以进一步优化广告点击效果，采用更紧凑的模型可以减少参数估计的数量。

6. 练习

为了更好地理解和应用上述内容，我们提供了一些练习，包括复习问题和问题解决问题。这些练习将帮助你巩固所学知识，并提高解决实际问题的能力。

以下是一个简单的 mermaid 流程图，展示了广告点击优化的基本流程：

graph LR
    A[开始] --> B[观察初始状态 S0]
    B --> C[选择策略]
    C --> D{策略类型}
    D -->|纯开发策略| E[计算最优出价 Xexplt(Sn)]
    D -->|激励策略| F[计算 Xexcite(Sn|ρ)]
    D -->|信息价值策略| G[计算 XVoI(Sn)]
    E --> H[出价并观察结果]
    F --> H
    G --> H
    H --> I[更新状态 Sn+1]
    I --> J{是否继续}
    J -->|是| C
    J -->|否| K[结束]

通过本文的介绍，你对广告点击优化的相关内容有了更深入的了解。在实际应用中，可以根据具体情况选择合适的策略和模型，以提高广告投放的效果和收益。

广告点击优化：策略与模型解析

7. 推荐系统案例分析

在实际应用中，广告点击优化常与推荐系统相结合。下面我们通过一个推荐系统的案例，进一步探讨如何将上述理论应用于实际问题。

7.1 推荐系统的信念模型

假设我们要设计一个推荐系统，为浏览网站的客户推荐文章。客户的属性 (a_n) 包括性别、年龄范围、设备类型、区域和唯一 ID；文章的属性 (b_n) 包括类型、子类别、来源、作者和唯一 ID。我们的目标是估计 (P(b_n|a_n))，即第 (n) 个具有属性 (a_n) 的客户点击具有属性 (b_n) 的文章链接的概率。

查找表信念模型 ：如果使用查找表信念模型来估计 (P(b|a))，考虑属性 ({a_1, a_2, b_1, b_2, b_3})，需要估计的参数数量非常大。例如，仅考虑 (a_1) 和 (a_2) 就有 16 种类型的人，随着属性的增加，参数数量会呈指数级增长。
逻辑回归模型 ：我们可以使用逻辑回归模型来估计概率。首先定义效用函数：
[U(a, b|\theta) = \sum_{f \in F} \theta_f \phi_f(b|a)]
其中 (F) 是由属性 ({a_1, a_2, b_1, b_2, b_3}) 构建的基本特征集，(\phi_f(b|a)) 是特征变量。然后，逻辑回归模型的概率公式为：
[P(Y = 1|a, b, \theta) = \frac{e^{U(a,b|\theta)}}{1 + e^{U(a,b|\theta)}}]
假设只使用基本指示变量，向量 (\theta) 的维度取决于特征的数量。

参数估计 ：假设我们生成了一组可能的向量 (\theta) 的样本 ({\theta_1, \ldots, \theta_k, \ldots, \theta_K})，初始先验概率 (p_0^k = 1/K)。在观察到第 (n + 1) 个客户的属性 (a_{n + 1})，选择显示具有属性 (b_{n + 1}) 的文章，并观察到结果 (Y_{n + 1} = 1) 后，使用贝叶斯定理计算 (p_{n + 1}^k)：
[p_{n + 1}^k = \frac{P(Y_{n + 1} = 1|a_{n + 1}, b_{n + 1}, \theta_k) p_n^k}{\sum_{j = 1}^{K} P(Y_{n + 1} = 1|a_{n + 1}, b_{n + 1}, \theta_j) p_n^j}]

7.2 推荐系统的系统模型

状态定义 ：
- 预决策状态 (S_n) 包含了我们在做出决策之前所知道的所有信息，如客户属性 (a_n)、文章集合 (B_n) 和概率估计 (p_n^k) 等。
- 后决策状态 (\hat{S} {b,n}) 是在做出决策（选择文章 (b_n)）之后的状态，可能包括观察到的点击结果 (Y_n) 以及更新后的概率估计 (p {n + 1}^k)。
外生信息 ：在这个过程中有两种外生信息，一是客户的属性 (a_n)，二是文章的点击结果 (Y_n)。
状态、决策和外生信息的序列 ：
- 时间 0：观察初始状态 (S_0)，包括初始的客户属性和文章集合。
- 时间 1：根据 (S_0) 选择文章 (b_1)，观察客户属性 (a_1) 和点击结果 (Y_1)，更新状态为 (S_1)。
- 时间 2：根据 (S_1) 选择文章 (b_2)，观察客户属性 (a_2) 和点击结果 (Y_2)，更新状态为 (S_2)。
过渡函数 ：过渡函数描述了状态如何从一个时间步转移到下一个时间步。例如，根据观察到的点击结果 (Y_n) 和贝叶斯定理更新概率 (p_n^k) 到 (p_{n + 1}^k)。
目标函数 ：我们的目标是找到最佳策略 (B_{\pi}(S_n))，使得总点击次数最大化。目标函数可以表示为：
[ \max_{\pi} \sum_{n = 1}^{N} E[Y_n | B_{\pi}(S_n)]]

7.3 推荐系统的策略设计

假设我们有 (K = 20) 个可能的 (\theta) 值。
- 纯开发策略 ：如果我们知道 (\theta = \theta_k)，则选择属性 (b \in B_n) 使得 (P(b|a_n, \theta_k)) 最大的文章。即：
[B_{explt}(S_n|\theta_k) = \arg \max_{b \in B_n} P(b|a_n, \theta_k)]
- 考虑 (\theta) 为随机变量的策略 ：当我们不知道 (\theta) 的具体值，(\theta = \theta_k) 的概率为 (p_n^k) 时，我们需要计算期望概率：
[B_{explt}(S_n) = \arg \max_{b \in B_n} \sum_{k = 1}^{K} P(b|a_n, \theta_k) p_n^k]
- 使用点估计的策略 ：为了简化计算，我们可以用 (\theta) 的期望 (\bar{\theta} n = E_n[\theta_k] = \sum {k = 1}^{K} \theta_k p_n^k) 来代替随机变量 (\theta)。则策略为：
[B_{explt}(S_n) = \arg \max_{b \in B_n} P(b|a_n, \bar{\theta} n)]
需要注意的是，使用点估计计算的点击概率可能与使用期望计算的结果有所不同。一般来说，点估计可能会忽略 (\theta) 的不确定性，导致估计结果不够准确。
- 区间估计策略 ：区间估计策略选择属性向量 (b) 使得 (\rho) 分位数的概率最大。假设我们将 (\rho) 离散化为一组值，目标函数为：
[ \max {\rho} \sum_{n = 1}^{N} E[Y_n | B_{\rho}(S_n)]]
其中 (B_{\rho}(S_n)) 是选择属性向量 (b) 使得 (\rho) 分位数的概率最大的策略。

8. 总结与展望

通过以上对广告点击优化和推荐系统的分析，我们可以看到，在实际应用中需要综合考虑多种因素，选择合适的策略和模型。不同的策略和模型各有优缺点，需要根据具体情况进行权衡。

在未来的研究和实践中，我们可以进一步探索以下方向：
- 多步前瞻模型 ：目前的信息价值策略只考虑了一步前瞻，未来可以研究多步前瞻模型，以更好地利用未来信息。
- 深度学习方法 ：深度学习在处理复杂数据和非线性关系方面具有强大的能力，可以尝试将深度学习方法应用于广告点击优化和推荐系统中。
- 实时学习与优化 ：在实际应用中，数据是实时变化的，需要开发实时学习和优化算法，以适应动态环境。

以下是一个 mermaid 流程图，展示了推荐系统的基本流程：

graph LR
    A[客户到达] --> B[观察客户属性 an]
    B --> C[选择文章 bn]
    C --> D[显示文章]
    D --> E{客户是否点击}
    E -->|是| F[记录点击结果 Yn = 1]
    E -->|否| G[记录点击结果 Yn = 0]
    F --> H[更新状态 Sn+1]
    G --> H
    H --> I{是否有新客户}
    I -->|是| B
    I -->|否| J[结束]

通过不断地研究和实践，我们可以不断提高广告点击优化和推荐系统的性能，为用户提供更好的体验，为企业带来更高的收益。