用什么方法来衡量这个“效果”呢?
应该如何根据效果评估的结果来更新模型呢?
1、离线评估
离线评估的主要方法:
Holdout 检验、交叉检验、自助法、时间切割、离线 Replay
2、评估指标
低阶评估指标:准确率、精确率与召回率、对数损失、均方根误差
高阶评估指标:P-R 曲线、ROC 曲线、平均精度均值
3、模型的效果对比
4、线上A/B测试
A/B 测试的基本原理
A/B 测试的分层和分桶方法
线上 A/B 测试的评估指标
怎么在 SparrowRecSys 的推荐服务器中实现 A/B 测试模块
5、 Interleaving
对于 Interleaving 方法,我们应该清楚它实现的三个要点:
- 它不进行用户分组;
- 它的实验推荐列表是通过间隔地选择模型 A 和模型 B 的推荐物品得到的;
- 为了保证它的公平性,我们要从模型 A 或者模型 B 中随机选择第一个物品,就像野球场选人一样完成推荐列表的生成。