海量数据
文章平均质量分 86
昨日西风紧
被深痛一击过后, 人生不过如此
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
海量数据处理常用思路和方法
转载http://blog.chinaunix.net/uid-26565142-id-3127581.html 《海量数据处理常用思路和方法》 (2012-03-09 18:53) 标签: class 数据 normal style 分类: 算法 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及...原创 2012-11-01 14:12:33 · 133 阅读 · 0 评论 -
海量数据处理常用思路和方法
1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除原创 2012-11-01 14:12:33 · 275 阅读 · 0 评论
分享