今天的会议包括facebook的石言心,hulu的项亮,腾讯的王益以及百度的刘其文,具体报告信息可以参见:http://www.resyschina.com/2012/
石言心报告有价值的内容很多,报告的标题虽然是"facebook推荐系统“,但更多的却是与广告系统的内容。报告的分享很有条理,重点说下自己印象比较深刻的内容:
* 特征的选择
离线特征:包括user的demography,user在各个类别item上的点击数,item的特征,item的avg_ctr
实时特征:包括上次看到同一个item的时间间隔
category的特征:不同类别的item有自身的一些特征,譬如"好友"方面有共同认识的人数等。
这些特征当中,user与item之间交互的行为特征应该是最重要的,结合自己做过的项目确实也是这样。
*模型的选择
提到了两种模型:一种是LR,另外一种是boost
LR的优点在于:
1) 可扩展性好,适合海量的特征
2) online learning,能够进行增量学习
boost的特点在于:
1) 能够学到数据的non-liner行为,准确性相比LR更高一些,因为LR本身是一个线性模型
2) 不太适合进行online learning,或者目前没有特别好的方法
最后facebook采用的是LR模型,架构中实现了增量学习,但线上实验结果表明:增量学习带来的指标提升很少,只能说它实现了对实时反馈数据进行了重新学习。另外,还提到了一点是每30分钟进行一次增量学习,新学到的模型会和原来的模型进行A-B test,如果新模型的效果好,会自动替换掉旧的模型。
个人理解:数据-->特征-->算法
1)数据量少,采用高级特征(从而特征数少),用adaboost比较好
2)数据量多,采用二值特征(从而特征数多),用LR比较好
3)LR, SVM, adboost从本质上是一致的
*value的融合
推荐的类目包括两种:一种是广告主sponsor的广告,另外一种是自身推荐的好友,音乐等等,这种可以把facebook当成一个大的广告主。前面一种推荐考虑的短期的利益,后面一种考虑的是长期的利益。在ranking中要兼顾两者的利益。
*gsp还是vcg? (目的是为了竞价市场的稳定)
vcg是telling truth, 达到纳什均衡,但是广告商难以理解
gsp不是telling truth, 有多个纳什均衡,但是广告商很好理解
项亮的讲座:
1. domain knowledge (在targeting求候选集,ranking中提取特征)
2. 早期基于规则方法只适合少量特征,每个特征权重也只能拍脑袋,所以需要机器学习的方法
3. 纯粹考虑点击率(忽视相关性),出来的结果可能相关性比较差(用户无法理解,体验差),这时的ctr也只是局部最优
解决办法:先根据是否相关(根据阈值决定是否相关)选出候选及和,再用ctr预测进行ranking
4. 系统的演变
基于规则-->item based-->ctr-->(relevance, ctr)
item based方法的问题(很多公司都遇到过):
王益的讲座:
1. LSA:矩阵值不同(TF,TF-IDF)不同,分解结果就不同
2. pLSA:为解决上面问题而提出,但对新query没法inference,需要全量重新训练
3. LDA:可对新query利用已训练模型直接进行reference,用经验贝叶斯来理解LDA会上一个层次
4. google rephil:lda一般只有上百个topic,但google rephil有上百万个topic,能够发现长尾