推荐系统架构与机器学习基础理论
机器学习之推荐系统发展概述与架构原理
- 机器学习“思维”
- 推荐系统的应用场景
- 推荐系统的架构
机器学习出现的原因
优化问题与凸优化问题
一维与多维
推荐系统的出现背景
信息过载
- 分类导航:信息缺乏,用户主动寻找信息
- 搜索引擎:信息丰富,用户主动寻找信息
- 推荐系统:信息泛滥,信息寻找用户
搜索引擎与推荐系统的区别
搜索引擎与推荐系统的主要区别:
- 搜索引擎:满足用户有明确目的时主动查找的需求
- 推荐系统:帮助用户在没有明确目的时,发现感兴趣的 内容
对舰系统的构成
推荐系统架构
推荐系统的再次认识
80/20原则与长尾效应
本节目标
- 物品流行度分析
- 长尾效应的解决思路
80/20原则
- 80/20原则: 80%的销售额来源于20%的热门商品
- 原因:喜爱热门商品的用户数更多,如果不知道用户的喜好,推 荐热门商品更加保险
长尾效应
长尾效应的解决思路
- 用户分析
新用户:倾向于浏览热门商品
老用户:逐渐开始浏览冷门物品 - 新颖度
- 覆盖度
总结
- 物品流行度分析
- 长尾效应的解决思路
新算法上线流程与用户满意度手机策略
新算法上线流程
第一步:离线实验
第二步:用户调查
第三步:在线AB测试
离线实验:
- 日志生成标准数据集
- 数据集分为训练集和测试集
- 训练集上训练模型,测试集上进行预测
- 根据指标,评价预测结果
用户调查:
- 高预测准确率不等于用户满意度
- 算法上线测试之前需要真实用户来参与测试
注: 要保证参与测试的用户与实际用户分布相同
在线实验:
- AB测试:新算法与旧算法进行比较
注: 在线实验的成本更高,只有离线实验和用户调查中表现都很 好的算法才可以进行
新算法最终上线的条件:
- 在离线指标上优于现有算法
- 用户调查满意度不低于现有算法
- 在线AB测试结果优于现有算法
用户满意度收集策略
- 调查问卷
- 点击率
- 用户停留时间
- 转化率
- 标签反馈
总结
- 新算法上线流程:
离线实验、用户调查、在线AB测试 - 用户满意度的收集策略
RMSE与MAE评价准确度
RMSE和MAE
准确率与召回率
信息熵与基尼系数衡量覆盖率
- 理解信息熵和基尼系数
- 覆盖度公式与分析
信息熵
基尼系数
覆盖度
多样性的度量——相似度
多样性
抵御行为注入攻击策略
行为注入攻击
行为注入攻击的防范
防范方式:
1. 使用高代价的用户行为
2. 使用数据前进行攻击检测,对数据清理