chapter 1
motivate:
Joachims et al. [2005]观察到,相比于列表页排名最后一个文档,用户更喜欢列表页排第一位的文档(观察数据的重要性,引出排序模型)。
直观来说,用户点击模型是能描绘用户行为的一套规则。例如,文档位置偏移对文档的影响,大量的用户行为数据表明用户可能更喜欢位置靠前的文档,当然也有注意力偏移,新颖性偏移,以及其他不同模型注意到的不同类型的偏移。点击模型是为了更好的排序文档以方便用户。
history:
2008年,第一个点击模型,瀑布模型(cascade model)被提出,这项工作还考虑了许多其他的模型,这些模型基于位置偏置假设,该假设先前已经由Joachims等人使用眼睛跟踪和点击日志分析建立,(可见,没有一蹴而就的事情,凡事都需要积累)。2009年,DBN和DCM模型被提出。此后,有大量基于这三个模型的改进模型被提出。点击模型的发展与它们的应用是齐头并进的,随着现代搜索引擎的发展,点击模型将获得更大的发展。
本文旨在总结现有的搜索点击模型。
chapter 2
我们讨论web搜索的点击模型,这类模型描述搜索引擎结果页面(SERP)的用户行为。现有的点击模型是这样的:用户向搜索引擎提出问题,根据问题,搜索引擎作出回答,呈现搜索结果页面(SERP),用户查看结果页,点击其中一个或几个对象,或者直接退出放弃与搜索引擎交互,这个过程称为一个会话(session)。
点击模型将用户行为视为一个显性事件或隐性事件的一个序列。每个事件由x表示是否发生,x=1表示事件发生,x=0表示事件未发生。点击模型考虑在内的事件有:
-
E(examine):用户查看SERP(搜索引擎结果页)中的对象。
-
A(attract):用户对某一对象感兴趣。
-
C(click):用户点击对象。
-
S(satisfy):SERP满足了用户的搜索需求,用户对这次会话满意。
点击模型定义这些事件之间的依赖关系,并且旨在估计相应变量的概率或条件概率,P (E = 1), P (C = 1 | E = 1)等。概率通常用希腊字母表示,例如P (A = 1) = α,大小取决于SERP的特征和用户的问题。例如,检查概率P (E = 1) 可能依赖于文档的位置,用户感兴趣的概率P (A = 1)可能依赖用户query问题和搜索结果的相关度。
总的来说,点击模型可以描述为: -
一组变量
-
变量之间的依赖关系,有向图表示。
-
变量之间的条件概率
-
点击模型参数,SERP的特征,用户query之间的相关性(这个不太理解,一直不知道SERP特征是什么,仅仅是position么?)
对于点击模型的训练,用户日志必不可少。用户日志是用户与搜索引擎大量的交互行为。不同的用户日志有不同的格式。一种简单的用户日志,包含user_id, query, timestamp, 如果有点击行为,那么还有被点击对象在SERP的rank排名,以及对象url。有了用户日志,参数(上文提到的变量,变量的条件概率,相关性…)可以被评估和学习。一旦学习到了参数,点击模型就可以被用来预测对象的点击概率和对象排序。
我们将点击模型表示为图模型,将变量显示为圆,其中灰色圆对应于观测变量,白色圆对应于隐含变量。圆之间的实线(箭头)表示“概率依赖的方向”。(之后会有详细解释,继续往下看吧,我也不太理解)
定义2.1 贝叶斯网络(Bayesian Netword)
贝叶斯网络是一个有向无环图,节点表示随机变量X1, X2, . . ., Xn ,它们的联合概率表示为:
有向边从X1指向X2,…指向Xn。
chapter 3
这章我们讨论基础的点击模型,这些模型捕获了关于搜索引擎结果页面上的搜索者交互行为。在第8章中,我们研究了更先进的模型,该模型考虑了该行为的其他方面、来自用户的附加信号和/或SERP的特征。
为了定义一个模型,我们需要描述观测变量和隐含变量,变量之间的关系以及它们与模型参数之间的依赖关系。
3.1 随机点击模型(RANDOM CLICK MODEL (RCM))
模型只有一个参数,定义为:
意味着每一个对象有相同的点击概率ρ,该模型只有一个参数ρ。我们可以通过抛硬币的方式(正,反)生成用户点击行为(点击,不点击),估计ρ的方式也十分简单,只需要计算点击的次数/请求的次数。
虽然这个模型极其简单,但是与其他模型相比,它的性能可以作为基模型使用。此外,随机点击模型(RCM)由于只有一个参数,过拟合的风险很小。(判断一片新鲜的树叶,模型只有颜色=绿色参数,则为欠拟合,嘿嘿,小草也是绿色的,如果模型有颜色=绿色,边界=锯齿形,过拟合,有可能观察的树叶都是锯齿形的绿色树叶?有的叶子边界是圆滑的。大概就是这样理解吧~)
3.2 点击概率模型(CLICK-THROUGH RATE MODELS (CTR))
在随机点击模型的基础上,提出拥有多个参数的一系列模型,它们依赖文档之间的顺序或者用户query和搜索引擎document对。
3.2.1 基于排序的点击概率模型(RANK-BASED CTR MODEL (RCTR))
点击日志中通常会出现这样一个情况:不同的位置,对应的点击概率不同。例如在2005年 Joachims等人发现,排序第一位的文档点击率大概为0.45,排序第十位的点击率远低于0.05。所以根据以上观察情况,我们可以提出和文档排序位置相关的点击概率:
RCTR模型的训练可以看作是训练不同位置的点击概率。(表示不太理解,最后模型训练好了,是从第一个位置到最后一个位置的点击概率?和文档排序有什么关系)
3.2.2 基于文档的点击概率模型(DOCUMENT-BASED CTR MODEL (DCTR))
另一个要介绍的模型是为每个query-document(用户query-搜索引擎的answer,document与以上翻译为“文档”的是一个东西)估计概率。
DCTR对于每一个query-document都有一个估计概率,因此当我们用参数拟合过去的query-document时,预测未来的document时,更容易容易发生过拟合。
下一节我们将研究基于位置的模型,它将位置偏移和文档偏移融合在同一个模型中。
3.3 基于位置的模型(POSITION-BASED MODEL (PBM))
很多点击模型都有如下参数关系:
查看对象并且感兴趣,于是发生点击行为;用户发生点击行为是因为,并且仅因为检查文档了并且被文档内容吸引(粗暴理解,有点不理解的是检查文档不等于点击文档??意思是目光所及而已??接着读吧)
这个简单的位置模型用了检查假说,引入一组关于文档的参数∂表示SERP中文档的吸引概率。这里的吸引指文档的某些片段,例如标题,简介吸引用户,而不是整篇文档。
2005年,Joachims等人提出用户是否检查文档很大程度依赖于文档在SERP中的位置,越靠前的文档被用户检查的概率越大。将这个信息纳入模型,根据文档位置不同,提出一系列的检查参数。基于位置的模型被表示如下:
第二个式子表示文档的吸引概率,第三个式子表示文档被检查概率,第一个式子表示文档的被点击概率等于吸引概率与检查概率相乘。
3.4 瀑布模型(CASCADE MODEL (CM))
瀑布模型提出用户从上到下检查SERP,直到找到相关的文档,排的靠前的文档总是被查看,之后的文档是否被查看当且仅当前面的文档被查看但是没有发生点击行为,瀑布模型可以表示为:
3.9 用户查看并且被吸引,于是发生点击行为
3.10 文档的吸引概率
3.11 文档的查看概率
3.12 如果前一个文档没有被查看,那么后面的文档也不会被查看
3.13 如果前一个文档发生点击行为,那么用户将不会继续查看之后的文档
3.14 如果前一个文档被用户查看了,并且没有发生点击行为,那么用户一定会继续查看接下来的文档。