推荐系统技术原理
内容分发方式:三种
1、编辑人工发布
2、订阅分发
3、推荐分发,不依赖订阅关系,公平,机器模型(头条、B站)
推荐分发:高效连接“人”和“内容/物”(技术核心)
1、用户画像:存储系统中记录人的兴趣点,男女,收入,(静态标签)足球:0.1,八卦新闻:0.15(动态标签、动态兴趣点)根据浏览足迹进行分类
2、内容画像:品类(足球/八卦),浏览量,浏览的时长,跳出率,点赞次数,评论次数。
小明来到“今日头条”,我们给小明看哪些文章?冷启动的用户
1、基础信息:性别,年龄,根据手机号去拿到这些信息。
2、偏好信息:无。
最简单的方法是把最新的文章给他,热门TOP 20文章,看了3篇,1篇是杨幂的娱乐新闻,2篇实时新闻(打印度)。
实时推荐能力:根据前面的TOP 20 得到了行为偏好。
实时画像:拿到访问日志Log,进入steaming流计算,在最近1分钟内浏览分类的偏好。
小明 - 娱乐:1/3,军事:2/3。
小明再次刷新的时候:给他20篇文章,混杂一些对他的了解,只知道近期的偏好,但是不能只参考实时偏好,给他20篇,其中8篇基于实时画像,12篇做一些探索性质的推荐(钓鱼执法 体育、政治类)。短期兴趣需要考虑,但是也要考虑长期兴趣。
历史画像:对用户前N天的log日志做分析,不能简单做一天的,top 100的偏好。
根据人类偏好去修改? 访问日志? 学习?推荐
频率控制:同一篇内容,同一类内容,再次曝光给用户的间隔。(去重) 不同的内容去重的周期不同。
产品上,到这里就结束了。
技术上的细节暂无。