一、分类
1、Content-based Filtering
最早人们使用的是基于内容的推荐方法,根据物品的属性为他们打上标签 再通过这些标签计算他们之间的相似度
2、Collaborative Filtering
协同过滤就是通过数据找到与你相似的用户,通过他们的行为和他们喜欢的内容。为你推荐你可能感兴趣的物品或内容
3、用户行为:
显性反馈数据:用户明确表示对物品的喜欢行为:评分,喜欢,收藏,购买
隐性反馈数据:不能明确反映用户喜好的行为:浏览,停留时间,点击
二、相似度
1、如何评判“相似”
User-based,两个人共同喜欢的东西越多,那么两个人就越相似 Item-based,两个物品共同喜欢的人越多,这两个物品就越相似
2、如何进行“推荐”
UserCF,和你兴趣相投的用户,推荐他们喜欢的商品
ItemCF,给用户推荐那些和他们之前喜欢的物品相似的物品 (ItemCF不利用物品的内容属性计算物品之间的相似度,主要通过分析用户的行为记录计算物品之间的相似度)
三、冷启动问题
用户冷启动:新用户来的时候,如何推荐
物品冷启动:新的物品,如何推荐
系统冷启动:新的网站上线,如何推荐
四、推荐系统的评价标准
准确度:打分系统,top N推荐
覆盖率:对物品长尾的发掘能力
多样性:推荐列表中物品两两之间的不相似性
新颖度:给用户suprise
惊喜度:推荐和用户历史兴趣不相似,却满意的
信任度:提供可靠的推荐理由 实时性:实时更新程度
CTR : 点击率(点击量/展示量)
CVR : 转化的情况,商家关注的指标(转化量/点击量)
GPM : 平均1000次展示,平均成交金额
五、推荐系统架构
推荐系统中的过程:
召回:先通过召回策略,将1000万数据 => 1000
过滤:对于内容不可重复消费的情况进行过滤,比如实时性比较强的新闻,在用户已经曝光后不再推荐给该用户 排序:对于召回的内容进行排序,将1000条内容按照顺序进行推送
混排:为避免内容越推越窄,将排序后的推荐进行一定修改,比如控制某一类型的频次
强规则:根据业务规则进行修改,比如在活动推广时将某些文章置顶