
海量数据
iteye_19643
这个作者很懒,什么都没留下…
展开
-
海量数据处理专题(一)——开篇
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。...原创 2011-04-23 15:52:59 · 160 阅读 · 0 评论 -
海量数据处理专题(二)——Bloom Filter
来自:http://blog.redfox66.com/post/2010/09/24/mass-data-topic-2-bloom-filter.aspx 【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属...原创 2011-04-23 16:12:27 · 82 阅读 · 0 评论 -
海量数据处理专题(三)——Hash
http://blog.redfox66.com/post/2010/09/24/mass-data-topic-3-hash.aspx 【什么是Hash】 Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的...原创 2011-04-23 16:41:14 · 78 阅读 · 0 评论 -
海量数据处理专题(四)——Bit-map
http://blog.redfox66.com/post/2010/09/26/mass-data-4-bitmap.aspx 【什么是Bit-map】 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,...原创 2011-04-23 17:49:37 · 70 阅读 · 0 评论