参加2012 resys会议小结

本文详细探讨了Facebook、Hulu、腾讯和百度在推荐系统与广告策略方面的实践,包括特征选择、模型应用、价值融合及竞价市场稳定策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天的会议包括facebook的石言心,hulu的项亮,腾讯的王益以及百度的刘其文,具体报告信息可以参见:http://www.resyschina.com/2012/


石言心报告有价值的内容很多,报告的标题虽然是"facebook推荐系统“,但更多的却是与广告系统的内容。报告的分享很有条理,重点说下自己印象比较深刻的内容:

* 特征的选择

离线特征:包括user的demography,user在各个类别item上的点击数,item的特征,item的avg_ctr

实时特征:包括上次看到同一个item的时间间隔

category的特征:不同类别的item有自身的一些特征,譬如"好友"方面有共同认识的人数等。

这些特征当中,user与item之间交互的行为特征应该是最重要的,结合自己做过的项目确实也是这样。

*模型的选择

提到了两种模型:一种是LR,另外一种是boost

LR的优点在于:

1) 可扩展性好,适合海量的特征

2) online learning,能够进行增量学习

boost的特点在于:

1) 能够学到数据的non-liner行为,准确性相比LR更高一些,因为LR本身是一个线性模型

2) 不太适合进行online learning,或者目前没有特别好的方法

最后facebook采用的是LR模型,架构中实现了增量学习,但线上实验结果表明:增量学习带来的指标提升很少,只能说它实现了对实时反馈数据进行了重新学习。另外,还提到了一点是每30分钟进行一次增量学习,新学到的模型会和原来的模型进行A-B test,如果新模型的效果好,会自动替换掉旧的模型。

个人理解:数据-->特征-->算法

1)数据量少,采用高级特征(从而特征数少),用adaboost比较好

2)数据量多,采用二值特征(从而特征数多),用LR比较好

3)LR, SVM, adboost从本质上是一致的

*value的融合

推荐的类目包括两种:一种是广告主sponsor的广告,另外一种是自身推荐的好友,音乐等等,这种可以把facebook当成一个大的广告主。前面一种推荐考虑的短期的利益,后面一种考虑的是长期的利益。在ranking中要兼顾两者的利益。

*gsp还是vcg? (目的是为了竞价市场的稳定)

vcg是telling truth, 达到纳什均衡,但是广告商难以理解

gsp不是telling truth, 有多个纳什均衡,但是广告商很好理解


项亮的讲座:

1. domain knowledge (在targeting求候选集,ranking中提取特征)

2. 早期基于规则方法只适合少量特征,每个特征权重也只能拍脑袋,所以需要机器学习的方法

3. 纯粹考虑点击率(忽视相关性),出来的结果可能相关性比较差(用户无法理解,体验差),这时的ctr也只是局部最优

    解决办法:先根据是否相关(根据阈值决定是否相关)选出候选及和,再用ctr预测进行ranking

4. 系统的演变

基于规则-->item based-->ctr-->(relevance, ctr)

item based方法的问题(很多公司都遇到过):


王益的讲座:

1. LSA:矩阵值不同(TF,TF-IDF)不同,分解结果就不同

2. pLSA:为解决上面问题而提出,但对新query没法inference,需要全量重新训练

3. LDA:可对新query利用已训练模型直接进行reference,用经验贝叶斯来理解LDA会上一个层次

4. google rephil:lda一般只有上百个topic,但google rephil有上百万个topic,能够发现长尾 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值