CTR
Click-through rate (CTR) is the ratio of users who click on a specific
link to the number of total users who view a page, email, or
advertisement. It is commonly used to measure the success of an online
advertising campaign for a particular website as well as the
effectiveness of email campaigns.
在计算广告和推荐系统中,CTR预估(click-through rate)是非常重要的一个环节,判断一个商品的是否进行推荐需要根据CTR预估的点击率来进行。准确的估计CTR对于提高流量的价值,增加广告收入有重要的指导作用。在进行CTR预估时,除了单特征外,往往要对特征进行组合。预估CTR,业界常用的方法有人工特征工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + LR、FM(Factorization Machine)和 FFM(Field-aware Factorization Machine)模型。在这些模型中,FM和FFM近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军
FM
FM(Factorization Machine)主要是为了解决数据稀疏的情况下,特征怎样组合的问题。
线性回归
在传统的线性回归模型中,对于一个给定的特征向量X=(x1,x2,…,xn)TX=(x_1,x_2,…,x_n)^TX=(x1,x2,…,xn)T,线性回归建模时采用的函数是
y^(x)=w0+w1x1+w2x2+...+wnxn=w0+∑i=1nwixi \hat{y}(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\\ =w_0+\sum_{i=1}^nw_ix_i y^(x)=w0+w1x1+w2x2+...+wnxn=w0+i=1∑nwixi
可以看出,各特征分量xix_ixi和xjx_jxj之间是相互孤立的,即y^(x)\hat{y}(x)y^(x)中仅考虑单个的特征分量,而没有考虑特征分量之间的相互关系(interaction)
特征组合
所以,我们可以把函数y^\hat{y}y^改写成
y^(x)=w0+∑i=1nwixi+∑i=1n−1∑j=i+1nwijxixj \hat{y}(x) =w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}w_{ij}x_ix_j y