A.
行为日志存储系统--->推荐系统--->UI--->用户
^-------------------日志系统------/
根据数据规模的大小,和数据的实时性要求,决定了数据存在哪里:实时性要求高的,存在Redis/数据库,实时性要求低的,存在数据库/HDFS
B. 介绍了一种基于内容的推荐系统
用户和物品之间,用3种东西关联上:物品,用户,特征;
用户---喜欢--->物品---相似--->物品
用户---有相似兴趣/好友--->用户---喜欢--->物品
用户---喜欢/具有--->特征---包含--->物品
用户侧特征:1. 人口统计学特征;2.用户行为(收藏过什么物品,购买过什么物品, ...); 3.用户的话题特征(根据用户行为得到的LDA特征)
多种推荐任务:1. 只推荐新上物品;2.只推荐打了广告的物品;3.推荐不同种类的物品;3.推荐图书的同时也推荐同内容的光碟;4.首页推荐热门物品,内页推荐长尾物品;5.用户点击“李宗盛”后,给他多推荐李宗盛的歌曲;
因此,需要多种推荐策略,架构如下:
用户--->多个推荐策略--->召回粗排序-->过滤-->面向点击率的精排名--->推荐解释--->最终推荐结果
召回粗排序那里,可以根据用户的反馈(比如他点击的物品是哪个策略召回的),建立LR模型,为各个策略训练权重;
C.
用户特征向量,和以下因素有关:
1. 用户行为的种类:购买行为最强,点击行为最弱;
2. 用户行为的新旧:很久以前的行为要降权;
3. 用户行为的次数:对同一个物品的行为次数越多,权重越大;
4. 物品的热门程度:用户对热门物品的行为,要降权;用户对占据UI上有利位置(比如大,比如靠前)的物品的行为,要降权;
过滤模块,过滤掉哪些物品:1. 用户已经见过/点过/买过的物品;2.候选集以外的物品(本栏目只推热门,则热门是候选集;用户选择了过滤条件,则条件以内的是候选集);3.口碑差的物品(用户打分低的物品)
排名模块:
1. 考虑物品新颖性:用户购买过物品A,则和物品A最相似的物品,比A更热门的那些,应该被降权;
2. 考虑物品多样性:a.可以每个种类推一些(槽位法);b.同一个推荐理由,推过一次以后就要把相关物品降权; c.每次比较和前面已经决定要推的物品的相似度,有太相似的则不推该物品;
3. 时间多样性:a.用户一产生行为,就更新用户画像;b.用户啥也不干,也要下次不给推上次推过的物品(用黑名单解决,最近刚推过的物品进行降权,随时间而浮动上来)
影响Ranking的特征们:
1. 用户侧特征;2.物品侧特征;3.上下文特征;4.物品在推荐列表中的位置,用户是否点击过和该物品具有同样推荐解释的结果,用户是否点击过和该物品来自同样推荐引擎的结果;
本文深入探讨了推荐系统的架构设计,包括行为日志存储、实时性和数据存储选择、基于内容的推荐原理,以及用户和物品关联机制。文章还介绍了推荐策略的多样性,如新物品推荐、广告物品推荐等,并讨论了用户特征向量的构建和推荐过程中的过滤与排名策略。
1628

被折叠的 条评论
为什么被折叠?



