基于用户投票的排名算法:威尔逊区间
1 威尔逊区间
排名算法就比较清晰了:
第一步,计算每个项目的"好评率"(即赞成票的比例)。
第二步,计算每个"好评率"的置信区间(以95%的概率)。
第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。
1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。
在上面的公式中,表示样本的"赞成票比例",n表示样本的大小,
表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。
威尔逊置信区间的均值为
它的下限值为
可以看到,当n的值足够大时,这个下限值会趋向。如果n非常小(投票人很少),这个下限值会大大小于
。实际上,起到了降低"赞成票比例"的作用,使得该项目的得分变小、排名下降。
2 置信区间
转载自:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html