https://highlyscalable.wordpress.com/2012/05/01/probabilistic-structures-web-analytics-data-mining/
1 统计不重复的基数或者数量,例如 hyperloglog数据结构,统计一年的不重复ip总数
2 统计topk问题Heavy Hitters,top20的慢查询
3 范围查询,查找出排名400-500的消费者
4 Membership Query,是否包含该条数据,例如布隆过滤器 在HBase中,类似于configServer判断数据是否存在于storefile中
概率数据结构应用
本文介绍了几种常见的概率数据结构及其应用场景,包括HyperLogLog用于统计不重复的基数,Heavy Hitters解决Top-K问题,范围查询技术定位特定排名用户及布隆过滤器实现高效的数据存在性检查。
157

被折叠的 条评论
为什么被折叠?



