1.用户满意度(用户调查或在线实验)
调查问卷:问卷要尽可能详细分出等级,不要只有满意或者不满意。
在线实验:给出反馈按钮,通过用户反馈获取,还可以使用点击率、用户停留时间和转化率等指标度量用户的满意度。
2.预测的准确度(离线测验)
预测准确度是最重要的系统离线测试指标,将离线数据集划分为训练集和测试集,通过在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为,并计算预测行为和测试集上实际行为的重合度作为预测准确度。
2.1 评分预测
预测用户对物品评分的行为称为评分预测。预测准确度一般通过均方根误差和平均绝对误差计算其中rui是用户对物品i的实际评分,yui是预测评分(标准差),平均绝对误差采用均值的方式计算。
RMSE加大了对预测不准的用户物品评分的惩罚,因而对系统的评测更加苛刻。如果评分系统是基于整数建立的,那么对预测结果取整会降低MAE的误差。
2.2 TopN推荐
网站在提供推荐服务时,一般是给用户一个个性化推荐列表,这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率和召回率度量。
为了全面评测TopN推荐的准确率和召回率,一般会选取不同的推荐列表长度N,计算出一组准确率/召回率,然后画出准确率/召回率曲线。
3.覆盖率
覆盖率描述了一个推荐系统对物品长尾的发掘能力。最简单的定义为推荐系统能够推荐的物品占总物品集合的比例。是内容提供商关心的数据
需要统计推荐列表中不同物品出现次数的分布。如果所有的物品都出现在推荐列表中,且出现的次数差不多,那该推荐系统发掘长尾的能力就很好。如果分布比较平,那么说明推荐系统的覆盖率较高,如果分布较为陡峭,说明推荐系统的覆盖率较低。
可以用信息熵和基尼指数来表示。(基尼指数越大表示分布越均匀)
一般推荐系统都具有马太效应(强者更强,弱者更弱),推荐系统目标消除马太效应(热搜、排行榜等具有马太效应)。
4.多样性
用户的兴趣是广泛的。推荐列表需要覆盖用户不同的兴趣领域,即推荐结果需要具有多样性(不在一棵树上吊死),尽管用户的兴趣在较长的时间跨度中是不一样的,但具体到用户访问推荐系统的某一刻,其兴趣往往是单一的。
多样性描述了推荐列表中物品两两之间的不相似性。相似度越高,多样性越小。
假设用户喜欢动作片和动画片,且用户80%的时间在动作片,20%的时间在看动画片,那么可以提供4种不同的推荐列表:A列表中有10部动作片,没有动画片;B列表中有10部动画片,没有动作片;C列表中有8部动作片和2部动画片;D列表中有5部动作片和5部动画片。在这个例子中,一般认为C列表是最好的,因为它具有一定的多样性,又考虑到了用户的主要兴趣。
5.新颖性
新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是,把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。比如在一个视频网站中,新颖的推荐不应该给用户推荐那些他们已经看过、打分或者浏览过的视频。
6.惊喜度(在线)
惊喜度是指如果推荐结果和用户历史兴趣不相似,但却能让用户觉得满意。
7.信任度(在线)
提高推荐系统的信任度主要有两种办法。首先需要增加推荐系统的透明度,而增加推荐系统同名度的主要方法是通过推荐解释。
8.实时性
在很多网站中,因为物品具有很强的实时性,所以需要在物品还具有时效性时就将他们推荐给用户。比如,给用户推荐昨天的新闻显然不如给用户推荐今天的新闻。
实时性包括两个方面。首先,推荐系统需要实时地更新推荐列表来满足用户新的行为变化。第二方面是推荐系统需要能够将新加入系统的物品推荐给用户。(系统处理物品冷启动问题)
9.健壮性
算法健壮性的评测主要利用模拟攻击。首先,给定一个数据集和一个算法,可以用这个算法给这个数据集中的用户生成推荐列表。然后,用常用的攻击方法向数据集中注入噪声数据,然后利用算法在注入噪声后的数据集上再次给用户生成推荐列表。最后,通过比较攻击前后推荐列表的相似度评测算法的健壮性。
总结:
对于离线优化的指标。在给定覆盖率、多样性、新颖性等限制条件下,尽量优化预测准确度。