Mining Massive Datasets课程笔记（五）Web广告

最新推荐文章于 2022-07-02 11:18:46 发布

原创

最新推荐文章于 2022-07-02 11:18:46 发布 · 2.3k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了在线算法的概念及其与离线算法的区别，通过二分图匹配问题来阐述。重点讲解了在线图匹配问题中的贪心算法，探讨了其竞争率，并分析了在AdWords问题中的应用。平衡算法作为贪心算法的改进，旨在解决广告商有限预算和多广告竞标的问题，其竞争率提升到了3/4。

Online Algorithm

通常的算法工作流程是，输入数据全部准备好了，我们能随时访问到所有的数据然后进行处理，从而输出结果，这类算法称之为”离线“算法（Off-line）
但是，有时候我们并不能获取全部数据，或者数据太大且有时间要求，需要在当前数据达到时作出应答，如前面课程中的流数据。这类算法称为”在线“算法（Online），在线算法与data Stream Model有些类似但并不完全相同。

二分图匹配问题（Bipartite Matching）

我们首先从二分图的匹配问题来了解在线算法。
完美匹配：给定一个二部图，一个匹配是指的由边构成的自己，对于这些边任何节点都不会同时是两条或多条边的端点，如果所有节点都出现在某个匹配中，则该匹配为完美匹配。
这里写图片描述
匹配问题也就是找到对于给定二分图的最大匹配，存在有完美匹配更好。在离线算法中，有一个多项式时间的算法，Hopcroft-Karp算法可以实现最大匹配问题。
Online Graph Matching Problem