Practical Lessons from Predicting Clicks on Ads at Facebook
整体思路
文章主要将gbdt与lr融合,效果得到较大的提升。
图中共有两棵树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。构造的新特征向量是取值0/1的。举例来说:上图有两棵树,左树有三个叶子节点,右树有两个叶子节点,最终的特征即为五维的向量。对于输入x,假设他落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],这类编码作为特征,输入到LR中进行分类。
评价指标
在本文中,用的是Normalized Entrophy(NE)和Calibration.
Normalized entrophy
- NE等于预测的log loss除以background CTR的熵
- NE越小模型性能越好
- 除去background CTR的熵,使得NE对background CTR不敏感
- p代表平均经验CTR
Calibration
- Calibrat